Z papíru do čtečky 6: Obsahová korektura

Dostáváme se k poslední, nejpracnější, nejdůležitější a nejzanedbávanější části převodu papírové knihy do elektronické podoby: k obsahové korektuře. Proces OCR, jakkoliv už je nesmírně kvalitní, stále nevede k bezchybným výsledkům. Hodně chyb už jsme opravili v předchozím kroku, ale pořád zbývá to nejnáročnější – ručně projít celou knihu a opravit všechny chyby, které tam ještě zbyly. A počítejte s tím, že tam budou a že jich nebude zrovna málo.

Obsahovou korekturu lze dělat už v rámci OCR – OCR programy vesměs nabízejí rozhraní, ve kterém zobrazují vedle sebe obrázek i zpracovaný text a vyznačují místa, kde si nejsou jisté, a slova, která nemají ve slovníku. Předpokládá se, že uživatel toho využije a celý dokument rovnou opraví. Osobně však nemohu tento postup doporučit, z několika důvodů.

Ten menší problém je, že oprava přímo v OCR programu je strašně zdlouhavá – těch problémových míst jsou spousty a i když skutečné chyby budou jen v menší části z nich (program neoznačuje chyby, ale místa, ve kterých by chyba být mohla), pořád je to hodně práce všechna podezřelá místa projít a zkontrolovat. Ještě tak se to dá snést u dvoustránkového dokumentu, ale já většinou zpracovávám knihy, které mají hodně přes sto stran, a tam je to skutečné utrpení.

Hlavní problém je ale jinde: kontrola v OCR programu odhaluje jen dva základní druhy chyb – odhalí špatně čitelná místa, kde program musel odhadovat, a dále odhalí neznámá slova (slova, která program nemá ve svém slovníku). Neodhalí ovšem chyby, které vedly k náhradě slova jiným známým slovem (u mnoha fontů je například k nerozeznání dvojice písmen rn od písmene m, a specielně v angličtině často vedou oba tvary ke gramaticky správným výrazům – do kontextu se ovšem hodí jen jeden), neodhalí chyby v interpunkci (detekovaná tečka místo čárky nebo čárka místo středníku), nenajde chybné konce odstavců (ať už přebytečné nebo chybějící). Speciálním problémem jsou jména a názvy, které často v žádném slovníku nejsou a OCR program v lepším případě nemá, s čím je porovnat – v horším případě má ve slovníku podobně vypadající slovo, které prostě použije v domění, že to jméno bylo prostě jen špatně čitelné. Lahůdkou jsou také záměny písmen a číslic (malé L a jednička, velké O a nula), které někdy jsou odhalit docela snadno, ale někdy také ne. Samozřejmě je zcela bez šance odhalit chyby, které jsou už v tištěné knize, ale přesto jde o evidentní chyby (špatné i/y, chybějící či nadbytečné čárky a často také popletená jména).

Kontrola v OCR programu tak v lepším případě vychytá to nejhorší, ale pokud chcete kvalitní výsledek, stejně musíte knihu přečíst ještě mimo. Proto jsem přešel na jiný systém oprav, který může vypadat divně, ale je daleko rychlejší, příjemnější a také učinnější: V OCR programu žádnou korekturu nedělám, předběžnou verzi knížky nahraju do Readeru a chyby zachytávám v něm. Vycházím přitom z toho, že tu knížku do elektronické podoby předělávám proto, abych ji četl, a tudíž rovnou můžu ten čtecí průchod využít k opravě chyb. Má to ovšem jeden základní předpoklad: Musím tu knihu natolik dobře znát a musím se natolik dobře vyznat v gramatice, abych ty chyby mohl odhalit. Což naštěstí splňuji (chyby zde na blogu mám většinou buď v důsledku překlepů, nebo toho, že ke konci věty zapomenu, jaký byl začátek).

Můj postup při opravování je tedy následující:

Nahrubo zpracovanou knihu nahraju do PRS-505 a pustím se do ní.
Kdykoliv narazím na chybu nebo na místo, kterým si nejsem jistý, vložím si na danou stránku záložku. (To je tzv. identifikační fáze.)
Když se mi nahromadí tak asi 20-30 záložek, uložím si další záložku na místo, kde jsem skončil, a pustím se do opravovací fáze.
Postupně vyvolávám ozáložkované stránky a hledám na nich chyby. Jakmile na chybu narazím, opravím ji ve zdrojovém textu, záložku smažu a pečlivě prohlédnu ještě zbytek stránky, jestli tam není další chyba.
Pokud narazím na chybu, u které je předpoklad, že se bude opakovat, zkusím ji dohledat a opravit ve všech případech pomocí funkce Search-and-Replace v editoru.
Jakmile otevřu stránku, na které jsem se čtením skončil, zruším záložku a pokračuji ve čtení v bodě 2.
Po dočtení celé knihy teprve nahradím soubor ve čtečce opraveným souborem z počítače.

Toto řešení je výrazně pohodlnější než korektura přímo v OCR programu, mimo jiné proto, že všechno čtení probíhá vleže z e-inku a ne v sedě z monitoru, ale má i svoje úskalí daná technickými možnostmi čtečky: Na PRS-505 jde zazáložkovat jenom stránku, ne konkrétní místo na ní, takže opětovné hledání chyb je dost pracné (proto ty opravy po každých 20-30 záložkách – kdybych těch záložek na opravu měl mít sto, tak se nikdy nedonutím to opravit). Na druhou stranu, všechno zlé je k něčemu dobré – každou chybovou stránku tak projdu přinejmenším dvakrát a často najdu i chyby, kterých jsem si při čtení nevšiml. Druhý problém spočívá v nestabilitě čtečky, která se čas od času rebootuje a bohužel přitom často zničí všechny uložené záložky, takže o všechny nalezené chyby zase hezky rychle přijdu (to je druhý důvod, proč je dobré nenechávat si na opravu moc chyb najednou). No a třetí problém – tohle celé je snesitelné jen tehdy, když je těch chyb rozumně mnoho. Pokud máte knihu se špatným tiskem, jako je například první vydání první povídkové knížky Zaklínače, vede to k chybě na skoro každé stránce a tam už skutečně je lepší opravovat to rovnou v OCR – aspoň nemusíte každou chybu hledat dvakrát…

Otevřenou otázkou ovšem je, jaké chyby opravovat. Chyby OCR jsou evidentní, ale co s chybami v textu jako takovém? V zásadě je možné pohybovat se mezi dvěma extrémy – opravovat jenom chyby OCR nebo naopak opravovat všechny chyby. Oba extrémy mají své zastánce a své oprávnění. Osobně se kloním k tomu, opravovat i evidentní chyby autora nebo překladatele (typický případ je, že se jeden z nich zamotá do jmen osob a pak nějakou větu pronese jiná postava, než by měla), pokud to znamená jen několik málo změn v textu – nahradit jméno nebo škrtnout přebytečné slovo je v pořádku, ale upravovat strukturu věty už ne.

Jedno drobné varování na závěr: Nemyslete si, že po jednom opravném průchodu dostanete perfektní výsledek. To ani omylem – pořád po vás zůstanou chyby, ale bude jich poměrně málo a je šance, že na ně přijdete, až budete knížku číst podruhé (nebo ještě lépe, až ji bude číst někdo další). Ale i po prvním čtení budete mít nesrovnatelně kvalitnější výsledek než cokoliv, co je k dostání na netu – ať už legálním nebo nelegálním způsobem. (Smutným svědectvím o péči, kterou oficiální i neoficiální autoři e-knih věnují svým produktům, je skutečnost, že podle mého návodu zpracovaná kniha s vynechanou obsahovou korekturou pravděpodobně stále bude kvalitnější než většina toho, co roste na internetu…)

Další díly seriálu:

Podobné příspěvky:

Posted in e-books by pepak, 24. 4. 2009 07:20

6 Responses to “Z papíru do čtečky 6: Obsahová korektura”

pepak napsal:

19. 11. 2009 (08:54)

Rozhodně. Kdyby nebylo tolika výhružných zpráv o tom, jak moc je kontrast a odrazivost displeje PRS600 a PRS700 horší než u PRS505, tak už kvůli tomuhle jednoduššímu opravování chyb okamžitě upgraduju.
Filip napsal:

18. 11. 2009 (22:40)

POuzivam na korekturu PRS-600 od Sony, ceskou verzi od digiknihy.cz, ma dotykovy displej a stylus. Knihu normalne ctu a stylusem si krouzkuju chyby primo v knize. Kdyz knihu doctu, jedu od zacatku a zakrouzkovane chyby opravuji primo v PC. Jde to rychleji od „ruky“ 🙂
pepak napsal:

30. 10. 2009 (06:11)

Knihy tu nejsou proto, že jsem zatím zpracovával pouze ty, co spadají pod zákonnou ochranu. Tudíž je nemůžu legálně šířit. Nejisté je to i v případě, že bych dal k dispozici jen kousek na ukázku.
Misojogi napsal:

30. 10. 2009 (01:49)

nanasiel som na Tvojej stranke miesto ked by sa dali stiahnut knihy ktore si robil
skoda lebo zaujala ma kvalita o ktorej si hovoril a rad by som si to porovnal ….
event ak mas nieco pekne mozeme vymienat …
aj ja mozno nieco najdem :-)))
pepak napsal:

28. 4. 2009 (06:28)

To je správná připomínka. Mě se to sice nestává, ale pokud k tomu má člověk sklony, musí s tím počítat.
MozziM napsal:

27. 4. 2009 (21:51)

Ke korektuře během prvního čtení bych měl jednu poznámku. Pokud je to dílko, na které se těšíte, je někdy dost obtížné se nezačíst. Pak najednou člověk zjistí, že je o dvě kapitoly dál a zjistí, že si všiml mizivého počtu chyb 🙁