Vyšlo v týdeníku CHIPweek č. 24/97, 10. června 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a724k140.php3

Orientujte se podle Kompasu!

V našich toulkách českým Internetem se nyní vrátíme k oblasti, kterou jsme se již jednou zabývali - k nejrůznějším možnostem vyhledávání, vyhledávacím strojům a vyhledávacím službám. Od doby, kdy jsme se touto problematikou zabývali, totiž uplynul jistý čas, a za tu dobu se v našem domácím Internetu událo mnoho zajímavého, co stojí za to si popsat.

Začněme v bezprostředním okolí jedné z nejstarších českých vyhledávacích služeb, kterou je katalog jménem Seznam (provozovaný stejnojmennou firmou). Seznam před časem oslavil své první narozeniny, a k 1. máji se mu narodil mladší bratříček - plnotextový vyhledávač jménem Kompas.

Ujasněme si hned na úvod, jaký je rozdíl mezi Seznamem a Kompasem. Je především v tom, jakým způsobem shromažďují a následně zpracovávají informace o existujících zdrojích: v případě Seznamu jde o ruční práci - někdo (člověk) zde musí sestavit stručný (v podstatě jednořádkový) popis nového zdroje, a pak rozhodnout do jaké kategorie z existující předmětové hierarchie má být odkaz na nový zdroj zařazen. Existenci této hierarchie pak v praxi odpovídá hierarchie nabídkových stránek, kterými se uživatelé mohou podle své libosti brouzdat. Takový je obecný princip všech katalogů (vyhledávacích služeb katalogového typu), ke kterým se řadí i Seznam. Jejich hlavní „přidaná hodnota" je v utříděnosti odkazů, nevýhodou pak relativně menší „dosah", způsobený nutností lidského rozhodování při zatřiďování odkazů.

Naproti tomu Kompas je představitelem vyhledávacích služeb databázového typu, které se snaží mapovat co možná nejvíce dostupných zdrojů, a pamatovat si o nich co možná nejvíce informací. Proto si již nemohou dovolit žádnou účast člověka při sběru a následném zpracování dat - sběr zde musí probíhat automaticky, pomoci samočinně fungujících programů (tzv. robotů), a výsledky již nemohou být zatřiďovány do žádné předmětové hierarchie. Místo toho musí být ponechány „na jedné hromadě" (v jedné databázi), a jediná šance jak se k nim uživatelé mohou dostat, je položit takovéto databázi vhodný vyhledávací dotaz. Na druhé straně výhodou tohoto přístupu je možnost „pamatovat si" úplně celý obsah všech zmapovaných WWW stránek, a nabízet možnost plnotextového vyhledávání v těchto stránkách.

Kompas [GIF2,URL2] je příkladem takto fungující vyhledávací služby, která mapuje výhradně tuzemské zdroje (čímž se zřejmě míní zdroje v TLD doméně .cz). Podle toho, co o svém díle autoři publikovali, jde o původní technické řešení, které je šito na míru poměrům v českém Internetu, zejména problematice češtiny. Kompas dokáže rozpoznat různé verze jedné a téže stránky, lišící se pouze způsobem kódování češtiny, a chápat je jako logicky jedinou stránku - což se konkrétně projevuje tím, že sám si ji pamatuje jen jednou (čímž optimalizuje své vlastní fungování), vyhledává v jejím obsahu nezávisle na tom, v jakém kódování diakritiky uživatel vznesl svůj dotaz, a v odpovědích na dotazy uživatelů ji nabízí jako jednu stránku, dostupnou ve více různých kódováních. Konkrétní technické řešení je založeno jednak na znalosti nejčastěji používaných mechanismů pro dynamické překódovávání češtiny (jako třeba systémem SaCzech), a zřejmě na použití heuristik v případě statického kódování češtiny (což jsem si vyzkoušel na příkladu svého archivu, výsledky vidíte na 3. a 8. obrázku). Podle toho, co autoři Kompasu sami uvádí, je účinnost jimi implementovaného rozpoznávání různých způsobů kódování jedné a téže stránky 80-procentní.

Co zatím Seznamu chybí, jsou bohatší možnosti kladení dotazů, a zejména pak možností třídění a agregace výsledků. Pro samotné dotazování existují dva režimy, jednoduchý a pokročilý. Rozdíl mezi nimi je ovšem prakticky jen v tom, že v jednoduchém režimu se jako logické spojky používají „a", „nebo", „ne", zatímco v pokročilém režimu se používá obvyklé booleovské AND, OR a NOT. Zcela chybí možnost vyhledávání tzv. frází (či: literálů, neboli vyhledávání textu „tak jak stojí a leží"), která je pro obdobné vyhledávací služby téměř samozřejmostí. Bez možnosti označit něco za frázi mohou vznikat určité problémy, jako například se řetězcem „TCP/IP" - podle rekapitulace dotazu (viz 5. a 6. obrázek) Kompas odstranil z výrazu TCP/IP lomítko, ale podle vypisované četnosti jednotlivých klíčových slov zřejmě hledal slova TCP a IP samostatně, což také není zcela v pořádku.

Zajímavým způsobem je podporována tzv. hvězdičková notace, neboli možnost použít znak „*" jako znak zastupující libovolnou skupinu znaků. Kompasu je možné zadat hvězdičku nejen za konci slova, ale také na začátku, a dokonce současně na začátku i na konci (viz čtvrtý obrázek [GIF4,URL4]). Možnost použít hvězdičku uprostřed slova sice chybí, ale zkušenější uživatel si jistě dokáže pomoci rozepsáním svého dotazu - nešlo by ale vyjít více vstříc těm, které hned nenapadne jak to udělat?

Co jsem na Kompasu nejvíce postrádal, je možnost nějak uspořádat či agregovat (sloučit) odpovědi - ty jsou automaticky setříděny podle míry své shody s vyhledávacím dotazem, ale jiná možnost uspořádání či dokonce agregace odpovědí nabízena není (například podle serverů, kde se stránky nachází). Stejně tak zřejmě neexistuje možnost upřesnit dotazy jiným způsobem, než vazbou na další klíčová slova (a ne třeba tím, že se stránka má nacházet v určité doméně, nebo že má obsahovat určitý konkrétní odkaz). Když jsem například chtěl najít, co kdo napsal o mém archivu článků na Internetu, dostal jsem na svůj dotaz sice přes 30 tisíc odpovědí, ale nemohl jsem si předepsat, že mne zajímají jen stránky mimo můj archiv. Chápu, že Kompas není Alta Vista se všemi jejími možnostmi a s jejím zázemím - ale snad autoři Kompasu, pan Lukačovič z firmy Seznam a pan Škrob z firmy Solamylware také ještě neřekli své poslední slovo.


Seznam obrázků:

  1. Oznámení o novém vyhledávači
  2. Domovská stránka, resp. formulář pro vyhledávání z jednoduchém režimu
  3. Příklad odpovědi
  4. Nápověda k vyhledávání
  5. Konkrétní dotaz
  6. Odpověď na dotaz z 5. obrázku
  7. Formulář pro pokročilé vyhledávání
  8. Odpověď na dotaz z obr. 7

P.S. Nedlouho po uveřejnění tohoto článku byla do Kompasu zabudována podpora operátoru host: (s obdobnou funkcí jako u AltaVisty), umožňující brát v úvahu i místo výskytu hledaných dokumentů.