Vyšlo v týdeníku Computerworld č. 21/94,
Vytištěno z adresy: http://www.earchiv.cz/a94/a421c300.php3

Co jsem našel ve slovníku, aneb: Česká slovníková databáze


Produkty zapůjčila k recenzi firma LEDA, spol. s r.o.

Jedním ze zajímavých společenských jevů, které doprovází naše postupné "otevírání se světu", je i stále naléhavější potřeba aktivního zvládnutí cizích jazyků. Jestliže těsně po sametové revoluci byla největší poptávka po lektorech cizích jazyků a nejrůznějších jazykových kurzech, nyní se již zájem stále početnější "jazykově zdatné" veřejnosti posouvá poněkud jiným směrem - roste volání po kvalitních, obsahově aktuálních a cenově dostupných slovnících, konverzačních příručkách a obdobných materiálech.

Náš trh na tento trend reaguje sice s určitým zpožděním, ale reaguje: objevují se jak reedice již dříve vydaných slovníků, tak i slovníky zcela nové. Vydávány jsou jak "všeobecně" laděné slovníky, tak i slovníky specificky zaměřené na určitou konkrétní oblast, jako například výpočetní techniku, strojírenství, ekonomiku, bankovnictví apod.

Většina těchto slovníků přitom vychází v "klasické", tj. tištěné formě. Existují však již i takové slovníky, které vychází pouze v "počítačové" podobě, a jsou tedy přístupné pouze uživatelům počítačů. Zajímavou kategorii pak představují takové slovníky, které existují v obou podobách: vychází jak v knižní formě, tak i v softwarové podobě. Jednou z prvních vlaštovek se stalo počítačové vydání úspěšného Anglického výkladového slovníku s českými ekvivalenty, známého pod jménem PASSWORD - knižní podobu tohoto slovníku s 50 000 hesly, který je ve své podstatě anglicko=českým slovníkem, vydala v roce 1991 Mladá fronta. Počítačová verze, která se posléze objevila na trhu, je však schopná fungovat anglicko-český i česko-anglický slovník.

Projekt České slovníkové databáze

Se zajímavým projektem, pojmenovaným Česká slovníková databáze, nyní přichází také firma LEDA s.r.o. Cílem tohoto ambiciózního a zřejmě dlouhodobějšího projektu má být postupné vydávání slovníků, encyklopedií a jazykových příruček v počítačové podobě. Nemá však jít ani tak o vlastní tvorbu takovýchto titulů, jako spíše o přejímání osvědčených titulů, které vyšly, vychází či se teprve připravují k vydání v knižní podobě, pochází od různých autorů, a ve své knižní podobě jsou vydávány různými nakladatelstvími. Firma LEDA uzavírá s nositeli autorských práv k takovýmto titulům potřebné dohody, a na jejich základě pak převádí příslušná díla do elektronické podoby a dále je prodává.

V současnosti již byly takto připraveny v počítačové podobě následující tituly (viz též samostatné boxy):

  • Velký anglicko-český slovník autorů Haise a Hodka
  • Česko anglický slovník Josefa Fronka
  • Anglicko-český a česko-anglický slovník zpracování dat, telekomunikací a kancelářských systémů, autorů Minihofera, Havlíčka a Starého
  • Encyklopedický slovník

V přípravě jsou pak další tituly: český synonymický slovník, středně velký česko-německý a německo-český slovník, anglicko-české slovníky ekonomiky, obchodu, česko-anglický a německo-český technický slovník, lékařský slovník a další.

Jednotlivé slovníky přitom jsou, resp. mají být obsahově totožné se svými knižními verzemi. Vzhledem ke své počítačové formě ovšem mohou mít navíc některé nezanedbatelné přednosti - například slovník zpracování dat, telekomunikací a kancelářských systémů autorů Minihofera, Havlíčka a Starého, je ve své knižní podobě pouze anglicko-český, zatímco vpočítačové verzi je anglicko-český i česko-anglický. Připravována je i obousměrná verze Velkého anglicko-českého slovníku autorů Haise a Hodka.

Další výhodu, kterou firma LEDA v rámci svého projektu České slovníkové databáze slibuje, ale zatím ještě nenabízí, je možnost tzv. úplného hledání, neboli možnost vyhledávání klíčových slov a sousloví i uvnitř popisné části jednotlivých hesel. K recenzi jsem však dostal pouze tzv. základní verze, schopné vyhledávat jen podle vlastních hesel (přesněji: tzv. heslových záhlaví), s jednou výjimkou v případě Encyklopedického slovníku (viz box), ve kterém lze hledat i podle některých klíčových slov v rámci popisné části hesel (viz též obrázek 3). Tyto verze jsou také dále popisovány.

Různá díla v jednotném hávu

Každý elektronický slovník, nabízený v rámci České slovníkové databáze, je ve své podstatě tvořen dvěma částmi: svým "datovým obsahem" ve formě datových souborů, a dále programem, který vytváří nezbytné uživatelské rozhraní a zprostředkovává všechny potřebné funkce, související s používáním slovníků. Pro snažší vyjadřování budu tomuto programu dále říkat slovníkový klient, což vcelku odpovídá skutečné podstatě věci - jde o jeden konkrétní program, který zprostředkovává přístup k vlastnímu slovníku, ale může být v zásadě nahrazen jiným programem, který k datovým souborům slovníku přistupuje stejným způsobem (ale uživateli může nabízet jiné uživatelské rozhraní, jiný způsob ovládání apod.)

Představě dvou relativně samostatných složek odpovídá i skutečnost, že slovníkový klient je, a zřejmě i nadále má být v zásadě jednotný pro všechny slovníky v rámci České slovníkové databáze. To pak mj. znamená, že uživateli se nabízí stejné uživatelské rozhraní, neboli jednotný "vzhled" všech různých slovníků, a dále jednotný způsob ovládání, a tím vlastně i jednotný způsob práce se všemi slovníky.

Obrázek 1.1.
Obr.1: Příklad hesla ve Velkém anglicko-českém slovníku autorů Haise a Hodka, v počítačové verzi
Uživatelské rozhraní, které slovníkový klient vytváří, je grafické. Důvodem je bezesporu snaha zachovat v maximální možné míře typografické konvence, používané v knižních verzích slovníků, včetně nejrůznějších národních abeced, speciálních znaků apod. Jak názorně dokumentuje obrázek 1, tento záměr se podařilo naplnit.

Způsob ovládání uživatelského rozhraní vychází z běžných "okenních" konvencí, ale celkový image uživatelského rozhraní má blíže spíše k tomu, na co jsou zvyklí uživatelé počítačů Macintosh. Bez myši se sice obejdete (díky horkým klávesám), ale s ní je ovládání výrazně jednodušší. Konverzace s uživatelem je vedena česky, a někdy snad až příliš důsledně - osobně mi chvíli trvalo, než jsem si zvykl, že místo obvyklého O.K jsou podle kontextu alternativně používány termíny Dobře či Hotovo, a místo anglického Cancel je někde používán termín Zrušit,zatímco jinde zase termín Zpět. Pravdou je, že české termíny v sobě nesou více informace, než jejich anglické protějšky, a dokáží tedy jemněji rozlišit varianty akcí, které jsou uživateli nabízeny. Problém je však v tom, že tuzemští uživatelé většinou nejsou zvyklí rozlišovat dvě varianty kladného potvrzení a dvě varianty odmítnutí.

Uživatel ovšem má možnost si předepsat, aby se s ním program bavil anglicky - což je asi rozumné, mají-li slovníky používat také lidé, pro které není čeština rodným jazykem. Anglicky mluvící uživatelé si tedy již dnes přijdou na své, ale jak dopadnou německy mluvící uživatelé, které budou jistě zajímat připravované německo-české slovníky?

Vlastnosti slovníkového klienta

Pro každého uživatele je ovšem velmi podstatná celková koncepce programu, který jsme si v předchozím odstavci pojmenovali slovníkovým klientem, a jeho konkrétní vlastnosti.

Tou nejdůležitější vlastností slovníkového klienta je skutečnost, že jde o běžný aplikační program pro prostředí MS DOS-u, bez možnosti stát se rezidentním programem. To pak v praxi znamená, že uživatel, skutečně pracující v MS DOS-u, si může na svém počítači spustit jen jeden takovýto program, ale vedle něj již bohužel nic jiného - žádný ze svých oblíbených textových editorů, ve kterém by psal své texty, a přitom občas "nahlížel" do svého počítačového slovníku.

Obrázek 1.2.
Obr. 2.: Zabudovaný editor umožňuje pracovat se dvěma soubory současně
Slovníkový klient řeší tuto nepříjemnou situaci tím, že uživateli sám nabízí vlastní editor pro pořizování textů. Vlastnosti a schopnosti tohoto editoru jsou ovšem dosti skromné - hodí se na ně anglické označení plain vanilla, které má vyjádřit, že příslušný produkt obsahuje opravdu jen ty nejzákladnější funkce, a žádné bells and whistles, neboli další doplňky, užitečnosti či pokročilejší funkce. Kromě přímé provázanosti se samotným slovníkem je jedinou, zato ale významnou výhodou tohoto editoru možnost pracovat se dvěma soubory současně - typicky s originálním textem, a průběžně vznikajícím překladem (ve dvou oknech, viz obrázek 2). Pro toho, kdo je skutečně odkázán jen na prostředí MS DOSu, bez možnosti souběžného běhu více úloh, je toto nouzové řešení jistě použitelné. Otázkou ovšem je, zda se s jeho minimálním komfortem budou uživatelé ochotni spokojit.

Lépe na tom samozřejmě budou ti, kteří na svém počítači mohou provozovat více úloh souběžně - nejspíše asi v rámci MS Windows, běžících v tzv. rozšířeném (extended) režimu jako nadstavba MS DOS-u. Tito uživatelé si totiž mohou spustit v samostatných relacích MS DOSu hned několik exemplářů slovníkových klientů (nejspíše "nad" různými slovníky), a vedle nich ještě také svůj oblíbený editor, ve kterém budou pořizovat své texty. Jelikož ale slovníkový klient není programem, určeným pro prostředí MS Windows, nedokáže využívat jeho mechanismy pro přenos dat z jedné aplikace do druhé - ani tzv. schránku (clipboard), viz box: Výhody a nevýhody počítačových slovníků.Slovníkový klient navíc pracuje v grafickém režimu, s rozlišením 640x480 (a vyžaduje tedy VGA kartu), takže v rámci MS Windows většinou není možné jej provozovat v okně (nýbrž jen celoobrazovkově). Ať již pak používáte editor pro MS Windows, nebo editor pro prostředí MS DOS-u, výsledný efekt je pro vás stejný: potřebujete-li při psaní svého textu konzultovat slovník, musíte se příslušným způsobem nejprve přepnout do té úlohy, ve které máte slovník spuštěn jako samostatnou aplikaci, zde vyhledat vše potřebné, výsledek si zapamatovat (nebo třeba zapsat na kus papíru), a pak se zase přepnout zpět do svého editoru a výsledek použít. Tedy žádné elektronické cut and paste přes schránku (clipboard), ale pěkně "ruční" práce.

Slovníkového klienta je možné provozovat jak na samostatných počítačích, tak i v síti. V tomto druhém případě mohou být datové soubory jednotlivých slovníků umístěny centrálně na příslušném serveru, zatímco na jednotlivých pracovních stanicích musí být jen některé pracovní soubory (v případě Velkého anglicko-českého slovníku mají tyto pracovní soubory dohromady cca 300 KB, a vše ostatní je umístěno na serveru). Celkové nároky jednotlivých slovníků na objem diskové paměti jsou uvedeny v boxu.

Možnosti vyhledávání

Základní schopností všech slovníků v počítačové podobě je vyhledávání. Zastavme se proto podrobněji u toho, jak se hledá ve slovnících České slovníkové databáze.

Obrázek 1.3.
Obr.3: Představa vyhledávání jednoznačně zadaného klíčového slova (s více výskyty, na příkladu Encyklopedického slovníku)
Nejjednodušší je situace v případě, kdy přesně znáte syntaxi toho, co hledáte. Základní verze slovníkového klienta, kterou jsem dostal k recenci, pak vámi zadané klíčové slovo (či skupinu slov) začne hledat v tzv. heslových záhlavích (v případě Encyklopedického slovníku pak částečně i v obsahu jednotlivých hesel, viz obrázek 3). Pokud jej najde právě v jednom heslovém záhlaví, rovnou vám ukáže jeho obsah. Pokud se vámi zadané klíčové slovo či sousloví (skupina slov) vyskytuje ve více heslových záhlavích, slovníkový klient vám nejprve nabídne seznam nalezených výskytů (viz obrázek 3). Z tohoto seznamu si pak můžete sami vybrat heslo, jehož obsah chcete zobrazit.

Neznáte-li zcela přesně to, co hledáte, nebo nevíte-li jak se to píše, máte v zásadě dvě možnosti. Tou první je použití tzv. hvězdičkové notace, využívající speciálních zástupných znaků "*" a "?". Způsob využití těchto zástupných znaků je stejný, jako například v prostředí MS DOS-u: znak "?" zastupuje jeden (libovolný) znak, zatímco "*" zastupuje libovolný počet libovolných znaků. Jediné omezení spočívá v tom, že smíte použít nejvýše dva znaky "?" najednou, a hvězdičkovou konvenci jako takovou nesmíte používat u slovních spojení (přesněji v případě, kdy znakový řetězec, který zadáváte k vyhledání, obsahuje mezeru, pomlčku či jiné speciální znaky).

Zajímavou terminologickou novinkou je pak pojmenování klíčových slov (nikoli ještě heslových záhlaví), které se ve slovníku najdou a vyhovují podmínkám, daným použitou hvězdičkovou notací: slovníkový klient je označuje jako otazníkové děti. Zajímavé, a docela výstižné.

Obrázek 1.4.
Obr. 4: Představa vyhledávání klíčového slova, zadaného s využitím tzv. hvězdičkové notace
Pokud se na základě vašeho dotazu najdou nějaké otazníkové děti, je vám nabídnut jejich seznam (viz obrázek 4). Pokud si z něj některé slovo vyberete, je další postup stejný, jako kdyby jste příslušné klíčové slovo zadali přímo, bez použití hvězdičkové notace - slovníkový klient tedy toto klíčové slovo začne hledat v heslových záhlavích, a pokud najde více jeho výskytů, nabídne vám jejich seznam (jako na obrázku 4).

Druhou možností, kterou máte k dispozici pro případ, že neznáte zcela přesně hledané klíčové slovo nebo jeho syntaxi, je možnost předepsat si i hledání podobných tvarů.

Tuto možnost je vhodné chápat jako poněkud "volnější" alternativu použití hvězdičkové notace, při které slovníkový klient přesně respektuje to, co mu zadáte. Zde naopak váš dotaz nebere jako dogma, ale připouští, že jste se mohli přepsat, zmýlit, nebo že jste si jen "střelili od boku", a snaží se vám nabídnout takové tvary, která uzná za podobné vámi zadanému tvaru. Například když si právě nemůžete vzpomenout, jak se v angličtině píše slovo "mail", můžete napsat například "mejl", a slovníkový klient si již nějak poradí - v rámci nabízených podobných slov vám předloží i ten správný (viz obrázek 5).

Obrázek 1.5.
Obr. 5: Představa vyhledávání klíčového slova, s využitím možnosti hledat i podobné tvary
Když jsem se snažit přijít na kloub algoritmu, podle kterého slovníkový klient posuzuje podobnost, příliš jsem neuspěl. V některých případech tento algoritmus naprosto oslňoval (například k počeštěnému "mejnfrejm" dokázal najít správné "mainframe"), ale v jiných zase zklamal na celé čáře: například k anglickému "mistakes" nedokázal nabídnout žádný podobný tvar (dokonce ani singulár "mistake", který jinak samozřejmě zná). Jak jsem se posléze dozvěděl, algoritmus hledající podobné tvary "nezná" jazyk, se kterým pracuje, a tudíž ani žádná jeho gramatická pravidla (jako například pravidla tvorby plurálu).

Velmi užitečnou schopností slovníkového klienta je vedení historie uživatelských dotazů. Jestliže se postupně dotazujete na různá hesla, slovníkový klient si je pamatuje, a na požádání vám nabídne jejich seznam. Vy se pak můžete ke kterémukoli z nich vrátit.

Další možností, kterou slovníkový klient nabízí, je vyhledávání v rámci právě zobrazovaného hesla. Tato možnost je zvláště užitečná v případě, kdy narazíte na heslo, jehož obsah je rozsáhlejší, a potřebujete v něm najít nějaký konkrétní řetězec či klíčové slovo.

Klady a zápory

Tím, co se mi na slovnících České slovníkové databáze líbilo nejvíce (kromě jejich vlastního obsahu), je rychlost vyhledávání. Nepoužijete-li hvězdičkovou notaci, je odezva prakticky okamžitá - a to i v případě Velkého anglicko-českého slovníku autorů Haise a Hodka, který má v knižní podobě čtyři svazky po cca 800 hustě popsaných stránkách, a v počítačové podobě zabírá na disku přes 20 megabytů (což ale nemusí být směrodatné). Ani při použití hvězdičkové notace se však odezvy nijak výrazněji neprodlužily: běžné dotazy s využitím hvězdičkové notace (např. čtyři znaky následované znakem "*") zabraly v průměru jednu až dvě sekundy! "Největší" přípustný dotaz, tvořený jedním písmenem následovaným znakem "*", se zpracovával necelou půlminutu (na počítači s procesorem i386 na 33 MHz, přičemž na pevný disk se prakticky vůbec nepřistupovalo). Dlužnou ovšem podotknout, že zde se zřejmě uplatnilo zabudované omezení maximálního počtu slovníkových dětí, které byly nabídnuty jako odpověď na dotaz.

Báječné rychlosti vyhledávání bylo zřejmě dosaženo tím, že autoři nepoužili žádný hotový databázový nástroj (typu DBase, FoxPro apod.), ale vše potřebné si napsali sami v jazyku C++.

Za zápor naopak považuji samotnou koncepci slovníkového klienta v jeho stávající podobě. Myšlenka nabídnout uživateli jednotné uživatelské rozhraní, zprostředkovávané vždy stejným klientským programem, je jistě velmi rozumná. Problém je ovšem v tom, že slovníkový klient České slovníkové databáze není schopen se za běhu přepínat mezi jednotlivými slovníky. Pokud si tedy například uživatel zakoupí Velký anglicko-český slovník, a vedle něj Encyklopedický slovník, v jednoúlohovém prostředí MS DOS-u s nimi nemůže pracovat současně! Ve víceúlohovém prostředí si pro každý slovník, který chce používat souběžně, musí spustit nový exemplář slovníkového klienta. Dalším nepříjemným momentem, nyní čistě technické povahy, je skutečnost, že slovníkovému klientu nelze předepsat, s jakým slovníkem má pracovat, a kde je tento slovník umístěn (slovníkový klient "jde na pevno" po konkrétně pojmenovaných souborech, umístěných v aktuálním adresáři). Pokud si zakoupíte více slovníků z České slovníkové databáze, jejich instalačním programům musíte předepsat, aby vám je nainstalovali do různých adresářů. Přitom vám ale do každého z nich nainstalují samostatný exemplář jednoho a téhož programu (slovníkového klienta), který je EXE souborem velikosti téměř 600 KB! Nechcete-li zcela zbytečně plýtvat stovkami kilobytů na svém pevném disku, můžete samozřejmě vystačit i s jediným exemplářem slovníkového klienta (například tak, že si jej vždy při spuštění slovníku nejprve zkopírujete do adresáře, ve kterém se nachází vlastní slovník, a po skončení práce se slovníkem jej zase smažete). Vše si ale musíte zajistit (i vymyslet) sami. Smysluplným řešením by bylo zajistit reentrantnost slovníkového klienta a opatřit jej parametrem, umožňujícím zadat např. umístění slovníku. Ještě inteligentnějším řešením by pak byla možnost volby používaného slovníku přímo ze slovníkového klienta.

Pohled do budoucna

Jak jsem zjistil dotazem u firmy LEDA, stávající podoba slovníkového klienta (popisovaná v předchozích odstavcích) je pouze přechodným řešením. Jeho další vývoj by se měl ubírat dvěma hlavními směry: cestou zdokonalování slovníkového klienta pro prostředí MS DOS, a vývojem slovníkového klienta pro prostředí MS Windows. Připravovaná verze pro prostředí DOS-u by již měla umožňovat přepínání mezi různými slovníky, resp. současnou práci s více slovníky (mj. i tak, že zadané heslo se nebude hledat vždy jen v jediném slovníku, ale postupně ve více slovnících). Kromě toho by již také měla být nová verze slovníkového klienta "jazykově uvědomělá", a při hledání podobných tvarů by měla být schopna aplikovat základní gramatická pravidla příslušného jazyka. Měla by také být schopná komunikovat s uživatelem ve více různých jazycích, než jen v češtině a angličtině.

V DOS-ové verzi slovníkového klienta mají být dále zdokonalovány schopnosti zabudovaného editoru, včetně možností importu a exportu textů do nejrozšířenějších editorů. Dokonce se prý pracuje i na tom, aby DOS-ová verze slovníkového klienta, provozovaná v prostředí MS Windows, dokázala pracovat s její schránkou (clipboard-em), a tím umožňovala přenos dat do nejrůznějších programů pro MS Windows stylem cut and paste. Teprve připravovaná verze slovníkového klienta pro prostředí MS Windows, která by měla být k dispozici koncem roku, však bude moci plně využít všech schopností této "uživatelsky přítulné" nadstavby nad řádkově orientovaným MS DOSem.

K dispozici však již údajně je brána, umožňující přímou spolupráci stávajícího slovníkového klienta České slovníkové databáze s editorem WordPerfect 5.1- prostřednictvím programového balíku WordPerfect Office, který pamatuje na možnost spolupráce s externími programy. Škoda jen, že jiné oblíbené editory pro prostředí DOS-u na takovouto možnost nepamatují.

Výrazným vylepšením bude také verze slovníků s tzv. úplným hledáním (viz výše), schopná vyhledávat zadaná klíčová slova nejen v heslových záhlavích, ale také i v rámci obsahu jednotlivých hesel. Přínosem jistě bude i možnost, aby si uživatel sám vytvářel vlastní slovníky - tato možnost totiž ve stávající verzi chybí.

Dalším vylepšením, o které si celý projekt České slovníkové databáze doslova koleduje, je jeho realizace ve formě CD-ROM disku. Jak jsem byl ujištěn, i na této verzi se pracuje, a měla by být dostupná od červernce tohoto roku. Doposud prý nebyla realizována proto, že jen málo uživatelů projevilo zájem o CD-ROM verzi (zřejmě nemaje potřebnou mechaniku). To je docela dobře možné, ale do budoucna se i zde situace jistě změní: vždyť ceny CD-ROM mechanik rychle klesají, a v době psaní tohoto článku byla na našem trhu nabízena nejlacinější mechanika již za necelé čtyři tisíce Kč (bez DPH).