Vyšlo v týdeníku CHIPweek č. 28/97, 15. července 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a728k140.php3

Pavouk

V dnešních Toulkách bych vám rád představil další službu pro plnotextové vyhledávání v českém Internetu. Opět přitom půjde o celou skupinu vzájemně provázaných služeb, mezi kterými nechybí ani nabídka vyhledávacích služeb katalogového typu.

Vyhledávací službě jménem U zdroje jsme se v tomto seriálu věnovali již více než před rokem (konkrétně ve 20. dílu minulého ročníku Toulek). V mezidobí pak tato vyhledávací služba katalogového typu získala několik doplňků, mezi kterými nechybí ani služba pro plnotextové vyhledávání v českém Internetu. Jmenuje se Pavouk, a lze se k ní dostat dvěma způsoby: první využívá "zaintegrování" plnotextového vyhledávání do katalogu U zdroje. V praxi to znamená, že svůj dotaz můžete položit Pavoukovi přímo z domovské stránky katalogu U zdroje, jak ostatně vidíte na dnešním prvním obrázku [GIF1,URL1]. Druhou možností je položit dotaz z domovské stránky samotného Pavouka, kterou vidíte na dnešním třetím obrázku [GIF3,URL3]. Rozdíl mezi oběma možnostmi je mj. i v tom, že v prvním případě nemáte možnost nějak explicitně ovlivnit způsob vyhledávání a jeho výsledky, zatímco ve druhém případě ano. I tak je ale repertoár možností hodně omezený - v zásadě můžete stanovit jen to, kolik odpovědí si přejete vypisovat najednou, zda chcete podrobný či stručný popis, a v jakém kódování si přejete výsledky zobrazit.

Volba kódování výsledků souvisí i se způsobem, jakým se autoři vyrovnali s celou problematikou češtiny při plnotextovém vyhledávání: jak sami uvádí, problém s nejednotným kódováním řeší tak, že si "proste nase specialni znamenka odmysli".

Jak jsem si sám experimentálně ověřil, Pavouk nutně musí používat při svém indexování nějakou heuristiku, podle které rozpoznává kódování češtiny. "Odmysleni" češtiny se totiž týká vlastního vyhledávání v nashromážděných indexech: uživatel musí zadat svůj dotaz bez háčků a bez čárek, a ten se pak hledá v indexech zbavených diakritiky. Díky tomu se pak hledané klíčové slovo či klíčová slova (zadaná bez diakritiky) mohou najít i na stránkách s diakritikou. Začátky jednotlivých stránek, které Pavouk zaindexoval (a které pak vypisuje jako stručný či podrobný popis nalezené stránky), si ale pamatuje včetně diakritiky. To mu následně umožňuje poslat příslušný popis stránky uživateli v takovém kódování, jaké si uživatel zvolí (právě to je smysl volby kódování, které Pavouk nabízí na své domovské stránce na třetím obrázku [GIF3,URL3]). V praxi to ale může vést k velmi nepříjemným důsledkům: například uživatel počítače Macintosh si nastaví kódování Mac, a dostane popisy nalezených stránek se správnou diakritikou. Když si pak klikne na příslušný odkaz a chce si stáhnout originál nalezené stránky, může s hrůzou zjistit, že tento originál používá úplně jiné kódování, například pro MS Windows apod.

Plnotextovému vyhledávacímu mechanismu Pavouka zcela chybí jakákoli možnost setřídění výsledků či jejich agregace. Nejsou zde také uvažovány různé režimy kladení dotazů (jednoduchý a pokročilý). Nelze používat závorky pro konstrukci složitějších výrazů, místo AND a NOT se používají znaky + a -. Podle návodu se mohou zadávat klíčová slova obsahující alespoň tři znaky, a smí to být pouze písmena! Zřejmě tedy nejsou povolena ani čísla, resp. číslice - všechny mé pokusy o nalezení čehokoli obsahujícího číslice skončily neúspěšně.

O velikosti databáze Pavouka si netroufám činit žádné soudy, neboť autoři v tomto ohledu neposkytují žádné vodítko. Například můj archiv článků zůstal Pavoukovi dosud utajen, proto také diametrálně odlišný výsledek stejného dotazu, jaký jsem dal i ostatním plnotextovým vyhledávacím službám z předchozích dílů. Na druhé straně, a na rozdíl od ostatních českých plnotextových služeb, které to dosud neumějí (jako třeba Kompas), je Pavoukovi možné explicitně zadat URL odkaz na stránku, kterou má jeho indexující robot navštívit (a ten se pak dostavuje každých 14 dní a kontroluje případné změny). Pravdou je, že explicitní odkaz na svůj archiv článků jsem touto cestou Pavoukovi zadal až při přípravě tohoto dílu, a proto se nemohl ještě projevit ve výsledcích. Na druhé straně odkaz na archiv je už hodně dlouho obsažen v katalogu U zdroje, který je s Pavoukem úzce propojen (a byl zde už v době, kdy Pavouk ještě neexistoval). Proto mne poněkud zaráží, že si Pavouk sám nezaindexoval ty odkazy, které již jeho "kolega" U zdroje má k dispozici (takovouto filosofii má zřejmě Atlas, kde stačí zaregistrovat svou stránku v tamním katalogu, a plnotextový vyhledávací stroj ji následně využije také).

Užitečným doplňkem Pavouka je možnost plnotextového vyhledávání v archivu tuzemských elektronických konferencí a síťových novin (news), příklad vidíte na dnešním čtvrtém obrázku [GIF4]. Na pátém obrázku [GIF5,URL5] pak vidíte další užitečný doplněk, kterým jsou titulky vybraných zpráv z několika tištěných titulů i on-line informačních zdrojů: ČTK, MF Dnes, Lidové noviny, Právo, Respekt, Medea, Bajt a Computer Press. Ve skutečnosti jde o odkazy na on-line "originály" jednotlivých článků.

Další doplňkovou službou, nabízenou společně s Pavoukem a katalogem U zdroje, je služba Borec. Jde o službu pro vyhledávání souborů, které zadáte podřetězec (viz šestý obrázek [GIF6,URL6]), a ona jej hledá v názvech souborů (viz sedmý obrázek [GIF7]). Když si vyberete konkrétní soubor, řekne vám, odkud si jej můžete stáhnout (viz osmý obrázek [GIF8]).

Další doplňující službou je služba Pokec [GIF9,URL9]. Jde vlastně o obdobu služby IRC, ale vedenou prostřednictvím služby WWW. Uživatel se zde nejprve musí přihlásit pod určitou přezdívkou a do určité diskusní skupiny (zde s metaforou kluboven a hal), a pak již může aktivně diskutovat. Úroveň diskuse názorně ukazuje poslední obrázek [GIF10].


Seznam obrázků:

  1. Domovská stránka katalogu U zdroje
  2. Výsledek dotazu Pavoukovi
  3. Domovská stránka Pavouka, s dotazovacím formulářem
  4. Výsledek dotazu do archivu elektronických konferencí
  5. Aktuální zpravodajství
  6. Domovská stránka služby Borec
  7. Nabídka nalezených jmen souborů
  8. Nabídka možností na stažení konkrétního zvoleného souboru
  9. Přihlašovací formulář do diskuse, v rámci služby Pokec
  10. Průběh diskuse