Formáty na PRS-505: *.PDF

Když se řekne „elektronická kniha“, asi první formát, na který si člověk vzpomene, je PDF. A z dobrých důvodů – pro distribuci elektronických knih je to ideální formát (což je ještě umocněno bezproblémovou podporou češtiny na všech zařízeních). Pro čtení už bohužel tak ideální není, a pro čtení na běžných Readerech je skoro úplně nevhodný. Každá čtečka, včetně Sony Readeru, ho sice z důvodu jeho velikého rozšíření a popularity podporuje, ale to ještě neznamená, že by bylo potěšením knihy v PDF číst. PDF má totiž i svoje nevýhody.

Tou menší nevýhodou je velmi problematická možnost upravování: PDF je koncový formát, předpokládá se, že už se v něm žádné úpravy dělat nebudou. To znamená, že pokud člověk narazí na nějaký překlep, nemá skoro šanci ho opravit. Ale to je jen detail, to trápí jenom ty z nás, co chceme dokonalé knihy – a i my se s tím můžeme smířit.

Zásadní problém PDF je v tom, že je vytvářen pro konkrétní formát výstupního zařízení. Dokud ten formát dodržíte, je PDF výstup perfektní, ale zkuste použít formát jiný a nabijete si ústa – tím víc, čím víc se formáty liší. Pro čtečky to znamená, že potřebujete PDF vytvářené pro velikost papíru zhruba A6-A5, které se ovšem takřka nevyskytují, protože každý vytváří PDF pro formát A4. Čtečky pak mají v zásadě dvě možnosti, jak se s tím vypořádat: Mohou zobrazit celou stránku, jen příslušně zmenšenou, nebo se mohou pokusit o tzv. reflow. Obojí má svá ale:

Změna velikosti stránky

… je výchozí chování. Čtečka prostě přepočítá jednotlivé body tak, aby jedna stránka v PDF odpovídala jedné stránce čtečky. Dokud je velikost stránky v PDF blízká velikosti stránky čtečky, funguje to výborně; pokud se ovšem pokusíte zobrazit A4 stránku na cca A6 displeji čtečky, znamená to zmenšení v poměru 1:2 v obou směrech. Z normálně velkých písmenek se pak stávají sotva čitelné znaky, z malého textu dostanete zcela nečitelné blechy. U komiksů to ještě celkem jde, ty vesměs používají dostatečně velká písmena, ale u PDF, jejichž hlavním obsahem je normálně velký text, to ke čtení moc není. Malý příklad:

A4 stránka na PRS-505
A4 stránka ve čtečce
Stránka paperbacku na PRS-505
Takhle vypadá ve čtečce stránka PDF formátovaného na velikost paperbacku

Stručně a jasně, je to horror, a prakticky nezlepšitelný. Na PRS-505 s původním firmwarem (a na řadě jiných čteček dosud) jsou víceméně jen dvě možnosti, co s tím udělat: Čtečka se může pokusit ořezat okraje a zbytek trochu zvětšit, ale efekt je pochybný – místo blech máte maxiblechy. Nebo druhá možnost, otočit stránku o 90 stupňů a zobrazovat ji na šířku, kdy vlastně jedna stránka PDF půjde přes dvě stránky čtečky. U některých knížek to jde, ale radši se modlete, že nikde nebude obrázek uprostřed stránky nebo nedej bože dva sloupce textu.

Reflow

U novějších čteček (a ve firmwaru 1.1 PRS-505) se objevila alternativní možnost, tzv. reflow: čtečka téměř celé PDF vyhodí a pokusí se ho chápat jako víceméně čistý text, který pak zobrazí podobně jako jiné čistě textové formáty. Funguje to až překvapivě dobře:

PDF - reflow ve standardní velikosti
Reflow ve standardní velikosti písma
PDF - reflow s větším písmem
Reflow se zvětšeným písmem

Ovšem zase tak jednoduché to není: PDF musí ten prostý text obsahovat a musí ho mít v rozumné kvalitě. To první je splněno překvapivě často – vcelku s jistotou jsem předpokládal, že drtivá většina PDF dokumentů ten textový kanál vůbec obsahovat nebude, ale když jsem teď nějaký ukázkový soubor hledal, nepodařilo se mi žádný najít. Dokonce i PDF soubory, které vznikly přes virtuální PDF tiskárnu (např. DoPdf, kterou jsem zkoušel), si ten textový kanál zachovají. I historická PDF, pro která jsem se ponořil do svých archívů, textový kanál měly a PDF čtečce nečinily problémy.

Ta druhá podmínka už je horší. Pokud PDF soubor vzniknul z nějakého běžného dokumentového formátu (Word, HTML apod.) konverzí nebo „tiskem do PDF“, ještě to jde – tam záleží jen na tom, jak moc se autor dokumentu zatěžoval gramatikou. Pokud ovšem PDF vzniklo z obrázků a text je tam získaný pomocí OCR, je to vesměs dost katastrofa, protože autor PDF – pokud vůbec o textové vrstvě uvažoval – vyšel z předpokladu „stejně to každý bude číst v PDF, textová vrstva je tam jenom pro vyhledávače, tak není důvod provádět korekturu“. A jakkoliv je kvalita dnešního OCR úžasná ve srovnání s tím, co OCR předvádělo před deseti lety, pořád ještě to není ve stavu, kdy by se nezkorekturovaný text dal bez obav číst.

Další věci na zvážení

Závěr by tedy mohl být, že pokud máte štěstí (vaše PDF je formátováno na něco menšího než A4) nebo netrváte na bezchybném textu, dá se PDF docela dobře použít. Bohužel, není to tak docela pravda. Zatím jsem uvažoval víceméně ideální případ beletrie, kdy je text skoro bez formátování, bez obrázků a hlavně teče rovnoměrně pořád kupředu. Jakmile se začneme bavit o knihách, které obsahují složitější konstrukce (obrázky, tabulky, prostorově rozmístěný text), jde celý reflow okamžitě do kolen a s dokumentem si buď neporadí vůbec nebo ho převede na téměř prostý text (jak vidíte na obrázcích výše, kurzívu reflow zachová, ale o moc víc už ne; obrázky neřeší vůbec a tabulky v lepším případě linearizuje). Takže máte na výběr mezi nečitelnými blechami, ale se vší parádou, nebo čitelným textem, ale bez všech netextových informací. Ani jedno není zrovna výhra.

A i když budeme uvažovat obyčejnou beletrii, pořád není PDF bez komplikací. Zůstává totiž otázka rychlosti: ve standardním zoomu může zobrazování jedné stránky docela klidně trvat i pět sekund, a to se bavíme o stránce jen s prostým textem; pokud je stránka složitější, je čekání k nepřečkání. Jen pro rychlé srovnání: U knihy v LRF se stránka otočí za necelou sekundu (všechny časy počítány i s odezvou displeje). A to ještě nechávám stranou tvrzení, že u dlouhých knih postupně narůstá doba otočení stránky, které se mi nepodařilo ověřit.

Podobné příspěvky:

2 komentáře “Formáty na PRS-505: *.PDF”

  1. avatar pepak napsal:

    Well, I agree with you that this is quite feasible. With one catch: If you already have the book in such a form that can be processed in the way you describe, you can just as well convert it to e.g. HTML or RTF as to PDF – and I am convinced these other formats are better suited for the task.

  2. avatar roger64 napsal:

    Hi. Living in Prague.

    I like perfect books and I use custom PDF to read them. It requires sometimes a lot of work, but when you build up your library, I think it’s worthwhile.
    1. Saving in Word format (either thru FineReader 9 for multi-column PDF or from Acrobat for „standard“ A4 PDF)
    2. Inserting the file in a 9×12 cm custom format, correcting, adding images from Google images or from the book itself and saving as odt format in OpenOffice .
    3. „Exporting“ this file as a PDF.

    Sometimes the „reflow“ function on the original book is quite good though. So, before setting up to work it can be a good idea to check it out.

Leave a Reply

Themocracy iconWordPress Themes

css.php