FineReader 10

Už delší dobu používám pro zpracování svých knížek do elektronické podoby FineReader 9.0. Jsem s ním v zásadě spokojený – už jsme si na sebe vzájemně zvykli, naučil jsem se jeho výstup upravovat do podoby, která mi vyhovuje, vím, na co si u něj dávat pozor. Proč tedy měnit, co funguje? Protože vývoj jde v tomto oboru dost rychle kupředu a to, co bylo loni skvělé, už letos může být jen průměrné. A protože převod knih do elektronické podoby stále ještě stojí hodně práce, každé zlepšení se počítá. Rozhodl jsem se proto vyzkoušet, jak si stojí aktuální verze OCR programů – jestli by třeba nestálo za úvahu aktualizovat. Jako první jsem vyzkoušel FineReader 10 – jako nástupce dosud používaného programu byl jasným kandidátem…

Podotýkám, že hodnocení FineReaderu 10 (a později i ostatních OCR programů) bude zaměřeno na to, jak se program hodí pro moje potřeby. To mimo jiné znamená, že obrázky pro proces OCR do programu vstupují a budou vstupovat zvenčí (z ovládacího software skeneru Plustek OpticBook 3600) – vůbec mě nezajímá, jestli a jak se OCR program vypořádává se skenováním, chci od něj pouze to, aby byl schopen pohodlně a rychle načíst obrázky ze souborů na disku. Zrovna tak mě nechávají chladným podporované formáty – podstatné pro mě je, aby z programu vypadlo něco, co dokážu s rozumným úsilím převést na svůj (X)HTML standard (viz články Šablona pro e-knihu v HTML a Z papíru do čtečky 5: Technická korektura). Neřeším, jestli se dá OCR program naučit na konkrétní typ písma (na to nemám trpělivost), ani se neptám, jak v něm fungují korektury (protože je řeším externě – hledám je na čtečce při čtení a opravuji je přímo v HTML souboru). Že tím ignoruji 80 procent funkčnosti OCR programu? Ano, ignoruji. Nedivte se proto, že moje hodnocení neodpovídá hodnocením jiných recenzentů, zejména těch, kteří hodnotí primárně na základě technických specifikací a benchmarků.

Grafické prostředí

První, co mě udeřilo do očí po instalaci FineReaderu 10, bylo „Enhanced usability – new quick tasks and interface revisions“ (abych citoval web výrobce). Když dojde na skutečnou práci, tak se prostředí ani tolik neliší od prostředí FineReaderu 9, ale když na mě po spuštění programu vyskočil speciální wizard pro spuštění OCR, docela mě to vyděsilo. Vlastně si teď nejsem jistý, jestli podobný wizard nebyl už v předchozí verzi, ale pokud tam byl, tak jsem ho vzápětí vypnul a zapoměl na něj. U FineReaderu 10 to neudělám. Ne že bych nechtěl, naopak; pěkně jsem se navztekal, než jsem konečně našel způsob, jak ještě před začátkem OCR stanovit jazyk, ve kterém se má OCR provádět (může za to něco podobného, jako je bannerová slepota – prostě jsem to okénko pro výběr jazyka neviděl, přestože je hned na titulní stránce). Ale prostě to nejde, ten wizard je povinný a zbavit se ho nedá.

Až na tuhle zradu je naštěstí ovládání programu téměř přesně stejné, jako ve starší verzi. Tedy přinejmenším v těch oblastech, ve kterých se pohybuji já (viz upozornění výše).

Výstupní soubor

Velká změna, kterou kupodivu Abbyy nijak neinzeruje, se týká formátu výstupního souboru. Ve FineReaderu 9 to bylo HTML verze 4.0, vcelku volně míchající CSS stylopisy (ano, já vím, že „CSS stylopis“ je něco jako „identifikační ID karta“, ale kdybych sem ten „stylopis“ nenapsal, pěkně to zmate tok textu) i HTML značky pro definici vzhledu. S tím, že pro výstup se používá ta kódová stránka, která se pro použitý jazyk obvykle hodí.

FineReader 10 zůstal u HTML 4.0, ale vytváří ho dosti striktně podle pravidel, která jsou používána u XHTML. Mimo jiné už uzavírá atributy tagů do uvozovek a dokonce přestal používat „stylové značky“ <i>, <b> a podobně a nahradil je CSS. I v oblasti kódování znaků doba pokročila a FineReader 10 nyní standardně používá UTF8, pokud mu ručně nevnutíte jiné kódování. Celkově by se změna mohla hodnotit kladně, dokumenty produkované FineReaderem 10 jsou jednoznačně lpe připraveny na budoucnost (a ostatně i na současnost).

Jenže se ukazuje, že toto dodržování standardů je dvojsečná zbraň: Vytvořené dokumenty sice dovolují kombinovat několik jazyků nebo využít možností CSS pro formátování, aniž by člověk musel celý dokument napřed překopat, ale skoro vůbec se nehodí pro úpravy, které používám. Příčina je v tom, že místo „postupného skládání“ různých stylů (každý HTML tag reprezentoval jeden styl, a když bylo potřeba udělat tučnou podtrženou kurzívu velkým písmem, tak se holt použily čtyři tagy) teď FineReader vždy ukončí předchozí styl a začne nový. Takže už nemůžeyte jednoduchým regulárním výrazem říct, „zlikviduj všechny fonty“ (nahradit </?span.*?> prázdným řetězcem) nebo „odstraň tučné písmo“ (nahradit </?b> prázdným řetězcem), ale bude to vyžadovat regulárních výrazů třikrát až desetkrát tolik (protože nyní mimo jiné závisí na tom, jestli se to jedno slovo psané kurzívou nachází na začátku odstavce, na konci odstavce nebo uprostřed). Konkrétní příklad, jak to může vypadat ve FineReaderu 10:

<p><span class="font2">„Zná můj bratr vodu, která se jmenuje</span><span class="font2" style="font-style:italic;"> Clear Brook,</span><span class="font2"> Jasný potok?&quot; „Znám.&quot;</span></p>

A takhle to vypadá ve verzi 9:

<p><span class=font1>„Zná můj bratr vodu, která se jmenuje <i>Clear Brook, </i>Jasný potok?&quot; „Znám.&quot;</span></p>

Pokud je těch kurzív v jedné větě víc, nebo se do toho dokonce zamíchá nedokonalý tisk a část textu je vytištěna tučněji (takže v tom „style“ není jen jednoduché font-style: italic;, ale klidně něco jako font-style: italic; font-weight: bold; text-transform: small-caps;), je práce pro vraha dostat z toho čisté HTML:

<p>&bdquo;Zná můj bratr vodu, která se jmenuje <em class="name">Clear Brook,</em> Jasný potok?&rdquo;</p>
<p>&bdquo;Znám.&rdquo;</p>

Možná se to nezdá jako něco podstatného, ale je to zatraceně závažná změna a ačkoliv se snažím dávat FineReaderu 10 další šanci, je velmi pravděpodobné, že jenom díky ní a navzdory řadě pozitivních změn (viz dále) nakonec zůstanu u FineReaderu 9.

Přesnost OCR

Šance, že se zlepšila přenost OCR, byla hlavním důvodem, proč jsem se vůbec začal zabývat testováním nových verzí OCR programů. Ne že by FineReader 9 produkoval nějak hodně chyb, ale i ten zlomek procenta se v dlouhém textu nasčítá a je z něj otravná dřina.

Ještě před stažením demoverze mě zarazilo, že se Abbyy na svých stránkách drží v hodnocení přesnosti OCR dost u země – nezaklíná se, jak je OCR opět mnohem přesnější než dříve, ale prostě jen střízlivě říká, že „Achievements in OCR accuracy and performance“, což může zákazník chápat stejně dobře jako „přenost je teď opravdu super!“ i jako „přesnost byla už dříve super a my jsme ji zachovali i do nové verze“.

Rychlý test ukázal, že k určité změně v přesnosti došlo, ale rozhodně to není jen samá procházka růžovým sadem. Předhodil jsem oběma verzím FineReaderu čtyři různé texty (vždy prvních deset stránek ze čtyř různých knih) a výsledky byly velmi rozporuplné – tam, kde byly v obou OCR rozdíly, byly prakticky vyrovnány počty případů, kdy se FR10 zlepšil, s počty případů, kdy se zhoršil. Konkrétní výstupy si můžete stáhnout a sami porovnat níže.

Struktura textu

V čem se ale FineReader 10 jednoznačně a bez nejmenších pochybností dramaticky zlepšil, to je chápání struktury textu. Co to znamená? Tak například to, že když je odstavec na dvou stránkách, tak ho nová verze správně pochopí jako jeden odstavec a ne jako odstavce dva. Když je slovo rozděleno, FineReader 10 ho spojí (devítka to dělala taky, ale mnohem méně úspěšně). Zlepšilo se i typické FineReaderovské nesprávné spojování nesouvisejících odstavců do jednoho, pokud začínaly nebo končily symbolem (běžné u přímé řeči).

Velmi dobře si nový FineReader poradí s poznámkami pod čarou – už je nechápe, jako to tvrdohlavě dělala starší verze, jako samostatné odstavce, které je třeba náhodně vhodit na začátek stránky nebo na konec stránky (nebo taky doprostřed), ale jako poznámky pod čarou, které je vhodné umístit na konec dokumentu a do jejich původního umístění jenom prolinkovat. Nefunguje to stoprocentně, ale je to nesrovnatelně lepší, než jak jsem to znal dříve.

Pokrok jsem také zaznamenal v identifikaci kapitol – FineReader se je snaží označit tagy <a> tak, aby šlo snadno vypsat jejich seznam a vytvořit tabulku obsahu. Stejně jako v předchozím případě, není to dokonalé, ale přesto jde o výrazné zlepšení.

Cena a licencování

Pochopitelně je důležitá i otázka ceny. FineReader každopádně není z levného kraje, nová licence přijde na 140 Euro. Upgrade je na tom relativně ještě hůř, 100 Euro je za nepříliš výrazný skok skutečně hodně; to už se skoro vyplatí zvážit, jestli neobětovat těch 40 Euro navíc a nezískat tak celkem dvě licence (jednu na FR10, druhou na FR9).

Bohužel, stejně jako předchozí verze i desítka vyžaduje aktivaci. Jestli je stejná jako u devítky, měla by být jednoduchá a rychlá, ale mě z filozofických důvodů zásadně vadí a na rovinu říkám – buď program vyžadující aktivaci vůbec nekoupím, nebo, pokud není přijatelná alternativa, ho sice se skřípěním zubů koupím, ale jakmile se naskytne možnost, prchnu ke konkurenci. Tady má Abbyy ještě velké rezervy – vážně jim ztráta loajality stojí za velmi pochybné omezení pirátství? (Na PirateBay apod. je pochopitelně FineReader dostupný v hromadě verzí, aktivace neaktivace…)

Závěr

FineReader 10 pro mě představuje nelehký oříšek k rozlousknutí: jeho schopnosti pracovat se strukturou dokumentu mě velice zaujaly, ovšem nemalá cena a zejména nesmírně problematický převod z „FineReaderovského HTML“ na „Pepakovo HTML“ mě od něj těžce odrazují. Dám mu ještě trochu času, ale jsem velmi nakloněn tomu, neupgradovat.

Download

Pro vytvoření představy nabízím pár ukázek, jak se FineReader 9 a FineReader 10 vypořádávají s některými knížkami. Zvolil jsem čtyři různé zdroje a nechal zkonvertovat vždy prvních deset stránek z každého. Jsou to:

Černé koráby 1 (Maciej Slomczynski; česky) – starší knížka ze série KOD o dobrodružstvích mladého chlapce v období, kdy ještě stála Trója a kdy Středozemí vládla mocná Kréta. Vybral jsem ji proto, že tisk je poměrně málo kvalitní, s „duchy“, takže klade na schopnosti OCR programu dost velké požadavky.
Old Surehand 1 (Karel May; česky) – klasická indiánka, obsahuje spoustu kurzívy a dialogů, takže dobře testuje schopnost programu vypořádat se s těmito vlastnostmi.
Galaxy 12/1968 (různí autoři; anglicky) – americký časopis, který se strašně blbě skenuje (protože text jde až do středu) a ještě hůř OCRkuje (kvůli textu až do krajů a kvůli poněkud pochybné sazbě, u které například FineReader dramaticky selhává na písmenku „h“; bude se hodit při hodnocení dalších programů).
The Trinity Vector (Steve Perry; anglicky) – jedna z originálních knížek mého oblíbeného autora (Perry se také dost angažuje v adaptacích cizích námětů – píše knížky o Conanovi, ale také novelizuje komixy nebo filmy), mimochodem dost pěkná na čtení. Na OCR je celkem jednoduchá, až na to, že na začátku každé kapitoly má hodně špatně čitelným písmem citát nějaké historické osobnosti, na čemž OCR programy pravidelně kolabují.

Download (77 KB).

Podobné příspěvky:

Posted in e-books, software by pepak, 17. 5. 2010 18:03

3 Responses to “FineReader 10”

Dyx napsal:

7. 1. 2012 (13:24)

Zkusernosti s Finereader 11 ? Uz jste to nekdo nestoval/srovnaval s predeslyma verzema?
pepak napsal:

16. 11. 2010 (17:15)

Obchod nedoporučím. Prostě naťukám do Googlu to, co chci koupit, a na jedné z předních pozic to koupím.

Vhodný program je třeba právě FineReader.
Jana napsal:

16. 11. 2010 (11:28)

Ahoj,
řeším problém. Potřebuju do práce sehnat program který by naskenované dokumenty pevedl z obrázku na text… Doporučíš mi nějaký internetový obchod, popřípadě poradíš?

Děkuji
Jana