Quotes – nástroj pro kontrolu uvozovek
Druhý z dlouho používaných ale nedokončených nástrojů se zabývá uvozovkami. Problematice uvozovek v HTML knihách už jsem se kdysi zabýval, ovšem musel jsem se spokojit se závěrem, že ideální řešení neexistuje. Prográmek Quotes je mým pokusem o to, jak nejlepší dostupné řešení aspoň trochu dostat do použitelného stavu.
Napřed rychlá rekapitulace. V principu jsou dva způsoby, jak v HTML knihách pracovat s uvozovkami: Lze využít speciálního tagu <q>
pro vyznačení uvozovek s tím, že skutečně použité znaky pro vykreslení specifikuji pomocí CSS předpisu. Druhá možnost pak spočívá v přímém zápisu uvozovek do textu v některé z několika možných podob (znakem v cílovém kódování, entitou vyjadřující znak s daným kódem, nebo speciální HTML entitou). První řešení je ideální z hlediska čistoty kódu (mimo jiné máme „zadarmo“ počítání párových uvozovek), bohužel se v praxi nedá použít, protože (i) skoro žádný software pro e-knihy to nepodporuje, a (ii) neumí se to přijatelně vyrovnat s uvozovkami přes hranice odstavců. Takže zbývá druhé řešení.
Můj základní problém s uvozovkami přímo psanými do kódu je, že prakticky není způsob, jak zajistit, aby ke každé otevírací uvozovce existovala i uvozovka zavírací, aby se uvozovky nekřížily a aby autor e-knihy z nepozornosti nebo lenosti nepoužil špatný symbol (např. “
na místě „
). Nebo přesněji, tento způsob nebyl – protože právě o tohle se stará prográmek Quotes.
Popravdě řečeno, to je také všechno, o co se Quotes stará – prostě a jednoduše počítá uvozovky a upozorňuje na místa, kde podle určitých pravidel narazil na chyby. Samozřejmě ne vždy upozorní přímo na místo, kde chyba vznikla, ale obvykle stačí, když se porozhlédnete kolem nahlášená místa a bude jasné, v čem je problém (pokud například v knize úplně chybí některá uvozovka, tak program dost dobře nemůže odhadnout, kam patřila – ale upozorní, až narazí na druhou uvozovku, která tam podle něj neměla být).
Program Quotes se používá, jako obvykle, z příkazové řádky příkazem jako quotes -cz kniha.htm
. Pro běžné použití (na jednu konkrétní knížku, kterou zrovna zpracováváte), ho doporučuji integrovat do programátorského editoru jako samostatný „tool“, lze ho ale použít i pro hromadnou kontrolu uvozovek ve více knihách najednou (včetně rekurzivního procházení podadresářů, quotes -cz -r *.htm
). Program automaticky detekuje kódování souboru, použitím vhodného parametru však můžete vynutit dekódování souboru jako ANSI, OEM, UTF8 a UTF16.
Při kontrole uvozovek můžete volit mezi režimy -en
(anglický text, uvozovky jsou tvořeny znaky “ ” ‘ ’ « »
, uvozovky přes více odstavců vyžadují opakování počátečních uvozovek na začátku každého odstavce), -cz
(český text, uvozovky „ “ ‚ ‘ « »
odpovídají čekým typografickým zvyklostem, uvozovky mohou pokračovat přes více odstavců bez opakování) a -cza
(jako -cz
, ale pro pravé uvozovky jsou použity „anglické“ symboly ”
a ’
).
Určitým omezením je reprezentace uvozovek. Program má napevno zakódovaný seznam znaků, které pro uvozovky používá a tento seznam nejde měnit. Pokud by však byl zájem, vrátím se k programu a dokončím rozpracovanou podporu pro libovolné vyjádření uvozovek. Podobně je zatím nedokončena podpora pro soubory ve formátu .txt
.
Download
-
Quotes v0.02 (2011-10-11, 60 KB) – první veřejná verze.
V skutku úvodzovky v ePUB sú des-bes. Spracovával som pár desiatok anflických kníh a zrejme niektoré editovali aspoň 4 ľudia z celého sveta. Boli tam všetky možné UNICODE alternatívy, ktoré existujú. Takže len tvrdá ručná práca…