e-books | Pepak.net

Category: e-books

Formáty: Adobe Digital Editions

Nemám rád ochrany proti kopírování. Pokud mám jenom trochu na výběr, je pro mě jejich existence důvodem pro hledání alternativy. Ale teď jsem zrovna na výběr neměl a tak jsem na Books On Board se skřípěním zubů koupil chráněnou knížku ve formátu Adobe Digital Editions. Je to moje první setkání s tímto formátem, který se v ČR zrovna moc nevyskytuje, a tak si o něm možná taky se zájmem přečtete.

(more…)

Posted in e-books, software by pepak, 4. 5. 2009 20:56 | Comments (2)

Z papíru do čtečky 6: Obsahová korektura

Dostáváme se k poslední, nejpracnější, nejdůležitější a nejzanedbávanější části převodu papírové knihy do elektronické podoby: k obsahové korektuře. Proces OCR, jakkoliv už je nesmírně kvalitní, stále nevede k bezchybným výsledkům. Hodně chyb už jsme opravili v předchozím kroku, ale pořád zbývá to nejnáročnější – ručně projít celou knihu a opravit všechny chyby, které tam ještě zbyly. A počítejte s tím, že tam budou a že jich nebude zrovna málo.

(more…)

Posted in e-books by pepak, 24. 4. 2009 07:20 | Comments (6)

Z papíru do čtečky 5: Technická korektura

Pokračujeme v převodu papírové knihy do elektronické podoby. Po minulém kroku už máme k dispozici HTML soubor s knihou. To ale není všechno. Ten soubor je zatím jen hodně surová verze, která se sice dá v nouzi použít už sama o sobě, ale pokud má e-kniha k něčemu vypadat, je třeba do toho ještě zasáhnout – je třeba sjednotit strukturu dokumentu, upravit obrázky, správně rozmístit poznámky pod čarou, vyřadit nadbytečná záhlaví a patičky apod. Problém je v tom, že tady už končí univerzálně platné pravdy a nastává okamžik, kdy je třeba se s každou knihou vypořádat specificky. Podotýkám, že celý tento návod předpokládá aspoň základní znalost HTML.

(more…)

Posted in e-books by pepak, 23. 4. 2009 06:41 | Comments (3)

Z papíru do čtečky 4: OCR – FineReader 9.0

Po posledním kroku máme hromadu obrázků, kde každý odpovídá jedné stránce knihy. Co teď s nimi? Potřebujeme z nich udělat text. Proces i software, který to dokáže, se nazývá optical character recognition (OCR), a k dispozici je řešení od řady výrobců. Špatná zpráva do začátku je, že nemá vůbec smysl uvažovat o řešeních, která jsou zdarma – sice existují, ale kvalita jejich výstupu je velmi špatná. Nedejte se zmást tvrzeními o 99% přesnosti – jednak si každý výrobce tu přesnost měří jinak (někdo ji počítá jako procento správně rozpoznaných znaků, někdo jako slovníkových slov a někdo jako skutečných slov) a hlavně – 99% přesnost (tj. 1% chyb) u spíš kratší knihy znamená řádově 500 chybně rozpoznaných slov nebo 3000 chybných znaků, což mi přijde jako poměrně hodně a opravovat bych to fakt nechtěl. Komerční nástroje jsou v tomto nesrovnatelně účinnější, pokud máte dobrou kvalitu skenu, dosáhnete u stejné knihy na nějakých 50-60 chyb všech typů celkem.

(more…)

Posted in e-books, software by pepak, 22. 4. 2009 06:00 | Comments (5)

Z papíru do čtečky 3: Plustek OpticBook 3600

Plustek OpticBook 3600 je skener speciálně určený pro skenování knížek. Tomu je podřízeno ovládání i software, ale hlavně design – a v tomto konkrétním případě tím nemyslím jenom vzhled, ale kompletní návrh. A je to poznat – převod knížek do elektronické podoby je s tímto skenerem velice pohodlný i přesto, že je manuální.

(more…)

Posted in e-books, hardware by pepak, 21. 4. 2009 06:01 | Comments (23)

Z papíru do čtečky 2: Zařízení

Prvním krokem při převodu papírové knihy do elektronické podoby je získání papírové předlohy. To nemusí být zrovna jednoduchý úkol, ale dejme tomu, že to se vám už podařilo. Pustíme se tedy rovnou do druhého kroku, to jest do převedení papírových stránek do formy elektronického obrázku v počítači. Tento krok je asi tím hlavním, co potenciální zájemce o digitalizaci knih odradí, protože vypadá strašně pracně. Nebudu vám lhát – ono to pracné je. Ale – určitě jste tušili, že tu bude ale – není to zdaleka tak pracné, jak se zdá, a není to tak pracné, jako některé z navazujících kroků. Tak s chutí do toho.

(more…)

Posted in e-books by pepak, 20. 4. 2009 05:32 | Comments (0)

Z papíru do čtečky 1: Proč to dělat?

Ještě před rokem a půl mi nebylo dost dobře jasné, kde se vlastně na internetu berou všechny ty elektronické knihy. Tedy přesněji řečeno, bylo mi jasné, že někdo vezme papírovou knihu, naskenuje ji, převede do textu a publikuje, ale nedovedl jsem si představit, proč – zkušenost ze skenování obalů celé mé sbírky CDček mě poučila, že rozsáhlejší skenování je velice náročná a dlouhodobá práce, kterou by sotva někdo chtěl dělat jen z dobré vůle. Od okamžiku, kdy jsem si pořídil elektronickou čtečku, se ovšem situace poněkud změnila, „prohlédl jsem“, a teď už skenuji taky. V několika dalších článcích se podělím o svoje zkušenosti s tím, jak to dělat co možná bezbolestně.

(more…)

Posted in e-books by pepak, 18. 4. 2009 06:39 | Comments (0)

Formáty: *.PDB

Takzvaný „formát PDB“ se od ostatních e-bookových formátů liší mnoha věcmi, mimo jiné tím, že to není formát (v podstatě je to kopie bloku paměti Palmu, bez ohledu na to, co vlastně obsahuje), a i kdyby to formát byl, tak to není formát e-bookový – obsahem PDB může být úplně cokoliv, co lze na Palmu spustit nebo v jeho aplikacích editovat. Dokonce i textových formátů pro použití v e-boocích je pod hlavičkou PDB několik.

(more…)

Posted in download, e-books by pepak, 16. 4. 2009 20:02 | Comments (62)

PRS-505: Sbírky

Kdybych měl jmenovat jednu věc, která mi na Sony Readeru opravdu vadí, tak to je jeho podpora-nepodpora pro adresáře: Reader sice správně najde všechny knihy, ať jsou rozházené po adresářích jak chtějí, ale potom je uživateli nabídne jen v plochém seznamu. Jaký je to problém ví každý, kdo má na čtečce víc než takových sto knih, případně víc než dvacet knih začínajících na jednu skupinu písmen – velmi to znepříjemňuje hledání konkrétní knihy. Sony Reader sice nabízí tzv. sbírky (collections – něco velmi podobného playlistu z hudebních přehrávačů), ale to je jen slabá náhrážka. Základní problém je v tom, že ačkoliv počet sbírek je teoreticky neomezený, praktickým maximem je tak dvacet, možná třicet kousků – potom už začne být vyhledávání sbírky natolik pracné, že to skoro nestojí za to. Bohužel, když nic lepšího není, musíme vzít zavděk i touto náhrážkou. Jediný problém je, jak ji vytvořit. Stejně jako v případě hromadných konverzí z HTML jsem se nespokojil se zjištěním, že to Calibre ani eBook Library neumí podle mých představ, a napsal jsem si vlastní prográmek založený na stejných principech jako H2LRF – práce z příkazové řádky a vytváření sbírek na co nejméně zmáčknutých kláves.

(more…)

Posted in download, Sony Reader by pepak, 14. 4. 2009 05:35 | Comments (9)

H2LRF: Hromadná konverze HTML

Motivační úvod

(Přeskočit)

Z důvodů uvedených v minulém článku, jako svůj formát pro archivaci knih jsem zvolil HTML, přestože tento formát moje čtečka nepodporuje a já pro ni musím knihy konvertovat. Hned ze začátku bylo jasné, že konverze bude muset probíhat dávkově z příkazové řádky – prostě proto, že mám neustále spuštěný FAR Manager a spuštění commandlajnového programu je v něm otázka dvou stisknutých kláves ([písmeno] a [ENTER]), zatímco v grafickém prostředí bych tak rychle ani neotevřel start menu. Cílový formát byl nutně LRF (EPUB ještě nebyl v Sony Readeru podporován a ostatní formáty jsou výrazně horší), což ovšem určilo konverzní utilitu, kterou budu používat – nic jiného než Calibrovské HTML2LRF pro konverzi HTML do LRF z příkazové řádky neznám. Jediný problém byl v tom, že pokud má výstup HTML2LRF za něco stát, vyžaduje tato utilita poměrně hodně parametrů; také jsem rychle narazil na řadu nečekaných omezení tohoto programu. A tak vznikla myšlenka na H2LRF, jakýsi „frontend“ pro HTML2LRF, který by fungoval z příkazového řádku a ušetřil mě co nejvíce myšlení, pamatování a psaní.

(more…)

Posted in download, e-books by pepak, 12. 4. 2009 07:00 | Comments (16)

Category: e-books

Formáty: Adobe Digital Editions

Z papíru do čtečky 6: Obsahová korektura

Z papíru do čtečky 5: Technická korektura

Z papíru do čtečky 4: OCR – FineReader 9.0

Z papíru do čtečky 3: Plustek OpticBook 3600

Z papíru do čtečky 2: Zařízení

Z papíru do čtečky 1: Proč to dělat?

Formáty: *.PDB

PRS-505: Sbírky

H2LRF: Hromadná konverze HTML

Motivační úvod

Rubriky

Základní informace