OmniPage 17

Vracím se ke svému projektu, ve kterém zkouším schopnosti OCR programů. Po FineReaderu 10, který jsem zkoušel minule, přišla řada na OmniPage 17 firmy Nuance.

Komunikace

A začneme rovnou těžkým kalibrem, který sice nemá nic společného s OCR, ale přesto může rozhodnout o koupi či nekoupi produktu: O programu se běžný uživatel skoro nic nedozví. Ještě před vyzkoušením programu mě například zajímalo, jaký je vlastně rozdíl mezi verzí „standard“ a „professional“ – cenový rozdíl mezi nimi (150 USD za standard, 500 USD za professional) je takový, že kdyby se náhodou ukázalo, že standardní verze má příliš drastická omezení (jak je skutečností u softwaru ReadIris, na který se podívám příště), vůbec by nemělo smysl OmniPage testovat, protože 500 dolarů za něj nedám.

Bohužel, informaci o rozdílech mezi standardní a profesionální verzí se mi nepodařilo ze stránek výrobce získat. No co, tak se obrátím na support – konečně, od toho pre-sale podpora je, aby na takovéhle otázky odpovídala. Asi už tušíte rozuzlení – na odpověď stále čekám. Mimochodem, už podruhé – obdobnou otázku jsem na Nuance posílal před lety, když jsem se rozhodoval, jestli koupit FineReader 9…

Musím říct, že nedostatek komunikace považuji za dost zásadní vadu programu: Když si aplikaci koupím a budu v ní potřebovat vyřešit nějaký problém, jak se asi výrobce zachová, když nereaguje ani na otázky typu „chci koupit váš program, ale potřebuji poradit, jakou verzi“?

Nedostatečná komunikace jde ostatně ještě dál – Nuance například na svých stránkách vůbec nenabízí demo. Nejdál se dostanete k formuláři, na kterém si můžete vyžádat zaslání dema. Odpovědi jsem se také nedočkal, nakonec jsem musel využít jakéhosi více nebo méně pochybného zdroje, který mi našel Google.

Grafické prostředí

Grafické prostředí OmniPage 17 je docela přímočaré a srozumitelné, rozdělené na tři sekce – vlevo náhledy načtených stránek, uprostřed detail vybrané stránky a vpravo její textová podoba. Obdobně jsou organizovány i hlavní ovládací prvky – tlačítko pro otevření obrázků, tlačítko pro provedení OCR a tlačítko pro uložení výsledku (plus úplně vlevo tlačítko pro provedení všech tří operací najednou).

Ovládání je tak teoreticky zcela triviální – kliknu na tlačítko „1-2-3“, vyberu seznam obrázků na zkonvertování, po chvíli naťukám jméno výstupního souboru a za dalších pár sekund je hotovo. Zase tak jednoduché to ale není.

První, na co jsem narazil, je výběr vstupního jazyka. FineReader to má docela jednoduché – hned na hlavní obrazovce je combobox, ve kterém si mohu vybrat jazyk nebo jazyky dokumentu, aby OCR neztrácelo čas kontrolou staroaztéckých slovníků když vím, že můj text je v češtině (nebo ještě hůř, aby náhodou neusoudilo, že dokument je celý psaný staroaztécky). Pokud má podobný prvek ve svém rozhraní OmniPage, tak jsem ho nenašel; jazyky se zřejmě nedají měnit jinak než přes menu Tools -> Options -> OCR, kde na to člověk snadno zapomene. Zvlášť pokud střídáte knihy v různých jazycích, je to dost nepohodlné.

V čem se OmniPage výrazně liší od FineReaderu, je přístup k formátu výstupního souboru. U FineReaderu je to tak, že si napřed vyberete výstupní formát, program přeformátuje detekovaný text do odpovídající podoby a pak teprve začnete opravovat chyby. OmniPage funguje v opačném pořadí – opravujete chyby v jediném společném tvaru a teprve při zápisu na disk určujete formát, ve kterém to bude provedeno. Tento přístup má svoji logiku, stejný dokument můžete uložit v deseti různých formátech a vždy budete mít jistotu, že se bude lišit právě jen formátem, ale ne obsahem; má ale také svoje nevýhody, zejména tu, že dokud dokument neuložíte, tak se nedozvíte, jak vlastně bude vypadat.

Uvedený problém je ještě zdůrazněn tím, že pro každý formát je k dispozici několik hlavních variant (například pro RTF si můžete vybrat, jestli chcete RTF ve formátu Wordu 95, 97, 2000 nebo jakýsi „ExactWord“, který vůbec neznám), které se často významně liší, ale nikde není zdokumentováno, čím. U každé varianty si pak můžete vybrat, jestli chcete ukládat plaintext (jen samotný text a rozdělení na odstavce), formátovaný text (navíc typy a velikosti písma, odsazení atd.) nebo „true page“ (co možná nejpřesnější zachování původního rozložení stránky), a v „Options“ pak detailní nastavení, které komponenty původní knihy zachovat a které odstranit nebo pozměnit (např. co udělat s rozlišením obrázků nebo jak se vypořádat s hlavičkami/patičkami). Možností je nepřeberně a nevyzná se v nich ani prase.

Experimentálně jsem došel k tomu, že nejlepší výstupní formát je pro moje účely eBook (*.opf), jehož hlavním výstupem je HTML soubor (OPF soubor je jen hlavička se základními metadaty). Proti také dostupným HTML 3.2 a HTML 4.0 má tu výhodu, že jeho struktura je výrazně jednodušší (neobsahuje nesmyslné detaily, které bych tak jako tak odstraňoval, jako že „tenhle odstavec má o 0.1 milimetru širší mezeru na začátku než ostatní odstavce“), a hlavně se dá rozumně použít pro češtinu: OmniPage se k neanglickým znakům chová velmi mačešsky a nahrazuje je entitami (tzn. místo čtyři měsíce vyprodukuje čtyři měsíce), což je vizuálně to samé, ale nedá se s tím pracovat. Jediný tvar, který jsem zatím objevil a který zobrazí češtinu „normálně“, je právě formát eBook (*.opf) za předpokladu, že v detailním nastavení vyberete kódovou stránku Unicode.

Batch Manager

Pozitivně hodnotím, že OmniPage obsahuje funkci „batch manager“, pomocí které si můžete naplánovat celou sérii OCR úloh, které pak program postupně provede, zatímco vy spíte nebo děláte něco jiného užitečného. Nepodařilo se mi sice Managera nastavit tak, aby vyprodukoval použitelný výstup, ale to nemusí být jeho vinou – už jsem měl všech těch nesmyslně detailních voleb plné zuby a nevěnoval jsem jim takovou pozornost, jakou bych mohl.

OCR

Jestli se divíte, proč jsem po všech těch peripetiích výše OmniPage nezavrhl ještě před samotným provedením OCR, mám jednoduchou odpověď: OmniPage je mnoha uživateli chválen za to, že dává nejlepší výstup. Pokusy, které jsem dělal, ukázaly, že na této chvále rozhodně něco je: V mnoha případech si program docela dobře poradil i s texty, jejichž kvalita tisku nepatří k nejvyšším a na nichž si konkurenční programy vylámaly zuby. Vyzdvihl bych to, jak výtečně dopadl v OmniPage časopis Galaxy ve srovnání s FineReaderem obou verzí.

Bohužel, zase tak jednoznačné to není: OmniPage si velmi dobře poradí s textem, ale špatně je na tom se strukturou dokumentu. FineReader sice občas vytváří odstavce, kde by být neměly, nebo naopak spojuje odstavce, které měly zůstat rozděleny (typické je to u přímých řečí, kdy spolu vedou rozhovor dvě postavy), ale proti OmniPage je to dokonalost sama – u toho mám pocit, že si začátky a konce odstavců vymýšlí náhodně. Také záhlaví a patiček „zapomíná“ FineReader podstatně méně než OmniPage. O tom, že by OmniPage detekoval kapitoly nebo vhodně styloval první zvýrazněný řádek kapitoly, jak to krásně předvádí FineReader 10, si můžete nechat jen zdát.

OmniPage naprosto kapituluje v případě, že narazí na stránku, jejíž text zasahuje až do úplného kraje (tzn. v případě, že tisk je příliš blízko ke hřbetu knihy a vám se ho nepodaří naskenovat celý) – řešení FineReaderu, který v takových situacích vygeneruje různé podivné znaky, sice není ideální, ale když si srovnáte alternativy… OmniPage například v takové situaci usoudí, že celý okraj textu u hřbetu vlastně není text, ale obrázek, který umístí před nebo za stránku, jak ho to zrovna napadne. Výsledek je ten, že místo sem tam nějakého podivného znaku, který vás při korektuře upozorní, že se něco děje, prostě přijdete o poslední (nebo první, podle toho, jestli je hřbet vpravo nebo vlevo) slovo na každém řádku. Nemohu říci, že by mě takový výsledek zrovna uspokojoval.

Obě uvedené výhrady bohužel vedou k tomu, že OmniPage je pro můj způsob tvorby e-knih nepoužitelný – zvýšená přesnost detekce dextu nevyrovná zvýšenou práci s opravou odstavců a zejména s dopisováním řádků do konce, které bych sice musel dělat i u FineReaderu, ale u něj bych drtivou většinu těch dopisovaných slov dokázal odhadnout, zatímco u OmniPage je musím všechny dohledávat v knize.

Výstupní soubor

I přes uvedené výhrady jsem se experimentálně pustil do úpravy jedné knihy, abych zjistil, jestli přeci jen nebude výhodnější pořídit OmniPage. Výsledek se dostavil rychle: nebude. Problém je v tom, že OmniPage nedodržuje žádnou rozumnou konvenci typu „co řádek, to odstavec“; místo toho volí zvláštní hybrid, kdy „co řádek, to konec předchozího odstavce a začátek a text nového odstavce“, který ještě k tomu často porušuje a klidně dělí text odstavce do několika řádků, aniž by to vyznačil příslušnými značkami (viz Galaxy 12/1968). Pro pouhé zobrazení vyprodukovaného souboru v prohlížeči nebo Readeru to postačuje, ale udělat z toho použitelný e-book je práce pro vraha.

Cena a licencování

O ceně už jsem se letmo zmínil na začátku, takže jen doplním, že i OmniPage vyžaduje aktivaci. Podle dokumentace svazuje licenční číslo s hardwarovou konfigurací počítače, přičemž při změně hardware „může dojít k vytvoření nového ‚otisku stroje‘ a využití další licence“ (dá se tomu zabránit odinstalací, která licenci uvolní, a následnou reinstalací). FAQ výrobce obsahuje k tématu řadu komických tvrzení, třeba odpověď na otázku „Jak prospěje aktivace zákazníkovi?“

Závěr

Vynikající OCR na úrovni slov, problematické skoro všechno ostatní. Nedokážu si představit, že bych OmniPage měl běžně používat, i kdyby se výrobce uvolil sdělit mi, kterou verzi vlastně potřebuji, ale vůbec bych nebyl proti, kdyby si použitou OCR technologii licencovalo Abbyy a zapracovalo ji do svého FineReaderu – pak by mohl vzniknout skutečně fantastický OCR produkt. Za stávajícího stavu ale nemůžu než doporučit, abyste se od OmniPage drželi dále.

Download

Stejně jako u recenze FineReaderu 10 jsem pro vás připravil několik ukázek, jak se OmniPage vypořádává s některými knihami; zvolil jsem ty stejné jako u FR10, takže můžete přímo porovnat. Trochu jsem přitom poexperimentoval s výstupními formáty, takže se můžete podívat na standardní OmniPageovský přístup k češtině (v ukázce z Černých korábů) a rozdíly mezi „eBook“, „HTML 3.2“ a „HTML 4.0“ (u Old Surehanda).

Download (105 KB)

Podobné příspěvky:

Posted in e-books, software by pepak, 13. 6. 2010 07:53

3 Responses to “OmniPage 17”

jenny lisa napsal:

21. 9. 2011 (09:31)

Zdravím chtěl jsem požádat o podporu stránek [url]http://picspoon.com/[/url]
Konkrétní video: [url]http://www.picspoon.com/video.php[/url]

Díky moc a obdivuje, že děláte něco zadarmo pro lidi zvlášt tak dobře.
pepak napsal:

4. 11. 2010 (15:55)

Pokud je velmi kvalitní vstup (zejména neleze text až do kraje stránky) a současně nebudeš mít extrémní nároky na detailní úpravy výsledného dokumentu (jako že já chci z výsledného HTML souboru vyházet všechno, co tam být nemusí, viz moje články o vyčištění HTML), tak klidně můžeš zkusit ten OmniPage. V každém jiném případě bych doporučil Fine Reader, a to možná radši verzi 9 než verzi 10.

Pokud je to pro jeden konkrétní účel (skripta), tak bych si někde stáhl demoverzi (pro FineReader existuje, pro OmniPage obávám se ne) a vyzkoušel, co dá na prvních pěti deseti stránkách nejlepší výsledky.
sona napsal:

4. 11. 2010 (15:37)

Jako reakci na začátek článku – není jasné, čím se liší levná a drahá verze – z nějaké oficiální recenze cituji: „Nejlevnější edice programu stojí 150 USD, náročným uživatelům a pro firemní účely je určena edice Professional s cenou 500 USD, kterou ještě doplňuje multilicenční varianta Enterprise. Součástí obou dražších variant programu je balík PaperPort 11 a virtuální tiskový ovladač PDF Create, který slouží ke správě, archivaci a sdílení elektronických dokumentů ve formátu PDF včetně podpory systému Microsoft SharePoint.“
Netuším, k čemu by tyto balíky mohly být dobré, ale protože zrovna hledám vyhovující OCR program a tak jsem se dostala i k této stránce, docela stojím o radu, co bys při svých zkušenostech s těmito programy doporučil. Poslední mé setkání s programem tohoto typu bylo před 8 lety s programem Recognita+, tuším že verze 4 nebo 5, takže dnešní programy mi připadají jako nebe a dudy. Ale když do toho pak člověk vleze, může se dost divit. Potřebuji program, který mi uloží něco jako verzi typu rtf, protože potřebuji připravit stará skripta (a knihy) k novému vydání a budu je muset pečlivě redigovat. Přitom jsem úplný amatér a s mou prací to souvisí jen velmi vzdáleně, ale není vyloučeno, že si z toho udělám koníčka. Dík za případnou odpověď. Soňa