Nápověda:Jak na Google Books

Google Books je relativně nový, perspektivní a rychle rostoucí zdroj textů volných literárních děl v mnoha světových jazycích, včetně češtiny. Na jednu stranu nabízí možnost získat texty s minimálním úsilím (přinejmenším v porovnání s opisováním či domácím skenováním z papírového originálu), na druhou je často potřeba při přístupu k datům překonávat technické a administrativní překážky. Protože potenciál tohoto projektu je značný, nabízíme vám stručného průvodce, jak co nejlépe využít nabízených možností.

Co je Google Books? editovat

Google Books Search na adrese http://books.google.com (také známý jako Google Books, dříve Google Print) je jedním z projektů firmy Google, kterým se snaží rozšířit vyhledávání informací mimo internet - na knihy a časopisy zveřejněné pouze v papírové podobě. Google skenuje knihy uložené v partnerských knihovnách (zejména na amerických univerzitách), ukládá snímky jejich stránek i automaticky převedený text ve své databázi a umožňuje v nich vyhledávání. Některé knihy, u kterých se předpokládá, že jsou kompletně volným dílem, je možné zobrazit a stáhnout kompletně. Projekt byl poprvé představen na Frankfurtském knižním veletrhu v roce 2004. V současnosti (leden 2009) je služba ve zkušební "Beta" verzi - například, výsledky vyhledávání v knihách nejsou zahrnuty mezi ostatními na http://www.google.com .

Co nabízí Google Books? editovat

Autorská práva platí pro všechny stejně - Wikisource, Google i kohokoliv jiného. Díla, která nejsou volná, nelze bez souhlasu autora nebo dědiců šířit po internetu ani jinak. Z hlediska Googlu přicházejí v úvahu ještě tři faktory:

  • Google obecně funguje na základě matematických algoritmů. Na individuální práci s jednotlivými webovými stránkami (či knihami) není čas.
  • Prioritou Googlu je co nejrychleji naplnit databázi a umožnit plnohodnotné vyhledávání. Dá se předpokládat, že kontextová reklama při zadání výrazu Harry Potter (kterého nesmějí zobrazit vcelku ještě desítky let) jim vynese víc než při stažení plného textu Tyla či Nerudy.
  • Po velkých právních problémech Googlu ohledně služby You Tube (masívní porušování autorských práv k audiovizuálním dílům některými klienty) je firma nyní opatrná a zveřejní v plném textu pouze ta díla, kde matematický algoritmus téměř s jistotou označí dílo jako volné v příslušné zemi.

Co tedy můžeme v Google Books zobrazit plně?

  • Mimo USA (včetně ČR) je možné zobrazit pouze díla vydaná do roku 1864. Logika je jasná - 18letému autorovi by 31.12.1938 bylo 92 let a je velmi nepravděpodobné, že by takovéto dílo ještě dnes podléhalo majetkovým autorským právům.
  • V USA existuje odlišnost. Vláda přistoupila k Bernským úmluvám později než jiné státy a vyhradila si, že díla vydaná do roku 1922 budou v USA volná bez ohledu na datum úmrtí autora (Američané si tak např. již dnes mohou svobodně přečíst Sinclairova Jatka, ačkoli zbytek světa na ně bude muset čekat do 1.1.2039). Uživatelům přistupujícím ke Google Books z USA se proto zobrazí plný text řady děl, vydaných až do roku 1922 včetně. Chceme-li si z České republiky zpřístupnit díla z let 1865 - 1922, je nutné využít postup z následujícího návodu (máte-li jiné nápady, napište je sem!)

Jiný postup je navržen zde: www.archive.org

Praktický návod - jak pracovat s Google Books editovat

Základem následujícího postupu je využití proxy serveru.

I. Příprava - jednorázově

  • Stáhněte si bezplatně webový prohlížeč w:Mozilla Firefox ze stránek Mozilla Europe a instalujte na Vašem počítači.
  • K prohlížeči si stáhněte a instalujte rozšíření usnadňující konfiguraci připojení prostřednictvím proxy serverů, například FoxyProxy.

II. Výběr proxy serveru a hledání

  • Na stránkách PublicProxyServers (nebo i jinde) najděte IP adresu vhodného proxy serveru. "Country" musí být "United States", jiné nemají pro tento účel smysl.
  • Zadejte IP adresu i Port do SwitchProxy na prohlížeči Mozilla a aktivujte je.
  • Do prohlížeče zadejte (nebo klikněte na odkaz) http://books.google.com . Máte-li štěstí, zobrazí se Vám bez větší prodlevy - i když trochu pomaleji než obvykle - úvodní stránka Google Books.
  • Jestliže se nezobrazí nic (stránka nenalezena) nebo se Google Books otevírají příliš pomalu, znamená to, že byl vybraný proxy server mezitím odpojený nebo je přetížený. V tom případě zkuste zadat jiný americký ze seznamu.
  • Pokud se Vám zobrazí hláška, že žádaná stránka není k dosažení, podívejte se napřed zcela dole na konci stránky, zda se po Vás nežádá vyplnit políčko pro tzv. captcha, které je nutno vyplnit - stránka se pak zobrazí
  • Pokud nefunguje žádná americká IP ze seznamu (v poslední době se to stává velmi často), máte smůlu a musíte využít jiný postup: vymažte proxy server z prohlížeče (návrat do standardního režimu přímého přístupu k webovým stránkám bez proxy), otevřte stránku http://www.freewebproxy.net nebo www.guardster.com a do vyhledávacího okénka zadejte "books.google.com". Tímto druhým způsobem dosáhnete prakticky stejného výsledku, až na to, že je omezená kapacita stahování (nelze stáhnout celé knihy v pdf formátu) a obtížněji se listuje v knihách (na freewebproxy nelze přímo zadat číslo stránky k vyhledávání).
  • Do vyhledávače v Google Books zadejte jméno autora nebo název volného díla (např. Jirásek, Karel Rais, Josef Tyl, Masaryk ...) a stiskněte Search Books.
  • Na seznamu výsledků uvidíte všechny knihy, které má Google v databázi (All books). Čtenáře a přispěvatele Wikisource ale zajímají jen knihy v plném textu. Klikněte na odkaz "Full view", čímž zmizí všechny nepřístupné knihy. Z ostatních si vyberte, která vás zajímá.

III. Příspěvek na Wikisource

  • Jakmile jste si vybrali knihu, zkontrolujte, zda je volná (autor zemřel nejpozději 31.12.1938).
  • Podívejte se, kdy byla kniha vydaná. Jestliže do roku 1863 včetně, měla by být přístupná i bez použití proxy serveru. V tom případě můžete na autorovu stránku na Wikisource ihned umístit externí odkaz. Zkontrolujte (bez použití proxy serveru), je-li tomu skutečně tak (dílo přístupné z ČR). Potom na autorovu stránku na Wikisource umístěte šablonu {{Online}}. Příklad: Václav Hanka.
  • Umístění plného textu na Wikisource je vždy lepší než pouhý externí odkaz. Vraťte se proto na stránku dané knihy na Google Books a klikněte na "View plain text". Ten je možné - s příslušným formátováním - zkopírovat do Wikisource. Výsledek je nejlépe zkontrolovat se staženou verzí v pdf ("Download") nebo se zobrazenými stránkami ("View page images"). Titulní stranu pro Wikimedia Commons nejlépe získáte po kliknutí na "Basic HTML mode" (vpravo dole).
  • Jestliže byla kniha vydaná v letech 1864-1922, je nutné ji zobrazit pomocí amerického proxy serveru a zkopírovat plný text. Neumísťujte externí odkazy na takovéto texty - průměrnému návštěvníkovi by nic nedaly.
  • Nejprve klikněte na "Zobrazit prostý text" ("Plain Text view") a přesvědčete se, že je dostatečně kvalitní pro kopírování. Zpravidla platí, že jedna OCR chyba na řádek je ještě přijatelná, větší množství chyb už znamená množství stráveného času. Je to ovšem individuální - do zpřístupnění známého díla (např. Strakonický dudák od J. K. Tyla) se vyplatí investovat víc než do již zapomenutého.
  • Doporučujeme celou knihu stáhnout ve formátu pdf (odkaz "Stáhnout" nebo "Download" vpravo nahoře; freeproxyserver.net to zpravidla neumožňuje kvůli limitu na objem dat, PublicProxyServers bývají z tohoto hlediska lepší, pokud fungují).
  • Klikněte na "Zobrazit prostý text" ("Plain Text View") a stránku po stránce kopírujte do textového souboru nebo přímo do editačního okna na Wikisource.
  • Po zkopírování příslušné kapitoly ji porovnejte s původním textem v pdf formátu. Určitě bude nutné odrazit všechny odstavce (textové zobrazení na Google je ignoruje) a opravit případné OCR chyby. Užitečné je, otevřít si obě verze vedle sebe a souběžně obracet stránky a rolovat.
  • Doporučujeme též kontrolovat bibliografická data, která mnohdy chybějí či jsou chybná.
  • Nakonec nezapomeňte na obálku a ilustrace (pokud jsou také volné). Na Google Books klikněte na Základní režim html (vpravo dole), který vám je umožní uložit v jpg nebo png formátu. Tyto soubory pak nahrajte na Wikimedia Commons, kategorie Category:Scanned Czech Texts s příslušným popisem.

IV. Nechce se mi hledat. Jaká díla jsou k dispozici?

  • Vyhledávání a objevování pokladů na Google patří v celém postupu možná k tomu nejzajímavějšímu. Pokud vás ale nebaví, najdete níže několik tipů. Pokud některou z uvedených knih zkopírujete na Google, odstraňte ji ze seznamu - a naopak můžete přidávat nálezy, na které nemáte čas.

Tak tady jsou některé:

Co by stálo za zpracování pro Wikisource editovat

Několik elektronicky přístupných textů, zejména z Google Books přes americký proxy server, které čekají na zpracování pro Wikisource. Máte-li chuť, dejte se do nich! Seznam obsahuje jen práce relativně známých autorů s malým počtem OCR chyb v textu (max. 1 na řádek, i když i to je někdy hodně). Nepředpokládám, že bych některé z nich osobně v dohledné době zadával:

Podívejte se také na editovat