Car-tech

Google: opublikowano 129 milionów różnych książek

Dzień z Tosią | KasiaLovesStyle

Dzień z Tosią | KasiaLovesStyle
Anonim

Dla tych, którzy kiedykolwiek zastanawiali się, ile jest różnych książek na świecie, Google ma dla Ciebie odpowiedź: 129 848 880, według Leonida Taychera, inżyniera oprogramowania Google'a, który pracuje w projekcie Google Books.

Szacowanie liczby książek na świecie jest czymś więcej niż ćwiczeniem z ciekawości dla poszukiwawczego giganta: zapewnia także mapę drogową niektórych prac, które pozostały do ​​zrobienia w realizacji ambitnego celu firmy, jakim jest uporządkowanie wszystkich światowych informacji.

"Kiedy jesteś częścią firmy, która próbuje zdigitalizować wszystkie książki na świecie, pierwsze często pojawiające się pytanie to: "Ile jest tam książek?", wyjaśnił Taycher w poście na blogu ogłaszającym oszacowanie.

[Więcej informacji: Najlepsze usługi transmisji telewizyjnej]

Aby uzyskać sensowną aproksymację, firma rozpoczęła od połknięcia informacji o książkach z wielu systemów katalogowania, takich jak Międzynarodowe Standardowe Numery Książki (ISBN).

Takie katalogi, choć pomocne, nie zapewniają ostatecznego obliczenia, jednak. Na przykład numery ISBN są przypisywane do książek dopiero od lat 60. XX wieku i zwykle są używane tylko w krajach zachodnich.

Wiele książek zostało przypisanych do indywidualnych numerów ISBN, a wydawca przypisał numery ISBN do pozycji innych niż książki, Takich jak t-shirty i DVD.

Więc inżynierowie Google napisali programy, by rozczesać około 150 takich katalogów i katalogów i wyeliminować tyle duplikatów, ile można znaleźć.

Firma musiała również wykonać szereg Trudne decyzje o tym, co jest i nie jest książką, wyjaśnił Taycher.

Na przykład, miękkie okładki i twarde okładki tekstu są liczone jako dwie książki, podobnie jak wiele różnych wersji popularnego tekstu, takich jak Szekspirowski "Hamlet", ze względu na wcześniejsze słowa i komentarze, które mogą zawierać. Serials mogą być traktowane jako pojedyncze książki lub jako zebrane prace.

Od czerwca firma zeskanowała 12 milionów książek, zgodnie z prezentacją przedstawioną przez inżyniera Google Book Managera, Jona Orwanta na Dorocznej Konferencji Technicznej USENIX w Bostonie. Książki te zostały napisane w około 480 językach (w tym 3 książki w języku Klingon pochodzącym z Star Trek).

Firma planuje zakończyć skanowanie istniejących książek w ciągu dekady. Powstała kolekcja wirtualna będzie składała się z czterech miliardów stron i dwóch bilionów słów, powiedział Orwant.

Około 20 procent książek na świecie znajduje się w domenie publicznej, wyjaśnia Orwant. Około 10 do 15 procent z tych książek jest drukowanych. Pozostałe książki - zdecydowana większość wszystkich tytułów - są nadal objęte prawem autorskim, ale wyczerpane. Google jest w trakcie pożyczania kopii tych książek w celu ich digitalizacji, z około 40 dużych bibliotek na całym świecie.

To jest ten akt skanowania w książkach, które są wyczerpane, ale nadal objęte prawami autorskimi, które zostały spełnione z pewnym oporem ze strony branży wydawniczej.

Firma oczekuje na wyrok Sądu Okręgowego Stanów Zjednoczonych w południowym dystrykcie Nowego Jorku, czy może skanować te książki.

W 2005 r. gildia autorów i Stowarzyszenie Wydawców Amerykańskich osobno złożyło pozwy zbiorowe przeciwko gigantowi szukającemu, twierdząc, że firma narusza autorskie prawa autorskie, skanując je w księgach.

Google twierdzi, że chce sprzedać cyfrowe kopie tych drukuj książki i odkładaj honoraria autorskie, aby mogli je otrzymać. Firma ma również nadzieję ujawnić fragmenty tych książek w wyszukiwaniach internetowych i twierdzi, że takie wykorzystanie podlega doktrynie dozwolonego użytku w Stanach Zjednoczonych.

Skanowanie we wszystkich książkach na całym świecie przyniesie inne korzyści, oprócz ulepszania wyszukiwania, wyjaśnił Orwant. Po zdigitalizowaniu wszystkich tych objętości ich zawartość może zostać poddana analizie, co może prowadzić do nowych wglądów. Lingwiści mogą odkryć, kiedy pewne słowa weszły w powszechne użycie lub którzy po raz pierwszy zaczynają używać tych słów.

Google Book Search może również pomóc w odpowiedzi na kilka ważnych pytań historycznych: Na przykład może to być przyczyną debaty nad tym, czy Izaak Newton i Gottfried Leibniz - lub ktoś inny w całości - wyliczyli rachunek.

"Możemy szukać nie tylko frazę, ale koncepcję - wyjaśnił Orwant. "Możemy przyjąć różne sposoby [odmienić ideę] nieskończoności, przetłumaczyć ją na różne języki i równolegle przeprowadzić wyszukiwanie."

"Mam nadzieję, że gdy zaczniemy wystawiać o wiele więcej Ta kolekcja pozwoli ludziom zadawać takie pytania, których wcześniej nie byli w stanie zadać. "

Redaktor działu wiadomości IDG Juan Carlos Perez przyczynił się do tego raportu.

Joab Jackson obejmuje oprogramowanie dla przedsiębiorstw i wiadomości o nowościach technologicznych dla Serwisu IDG News. Śledź Joaba na Twitterze na @Joab_Jackson. Adres e-mail Joaba to [email protected]