Vyšlo v týdeníku CHIPweek č. 25/97, 17. června 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a725k140.php3

Podívejte se do Atlasu!

V dnešních Toulkách navštívíme další vyhledávací službu, zaměřenou na český Internet. Jmenuje se Atlas, a je ve skutečnosti celou soustavou služeb - dnes si povšimneme pouze jedné z nich, a to plnotextového vyhledávače, který je zřejmě "vlajkovou" službou celého Atlasu. K dalším službám Atlasu se dostaneme příště.

Celá soustava služeb, zastřešená společným názvem Atlas, byla uvedena do ostrého provozu k 1. dubnu letošního roku - jak se ostatně můžete sami dočíst na dnešním prvním obrázku [GIF1,URL1], který přináší oficiální informace od provozovatele Atlasu, pražské firmy Sprinx. Zajímavé je, že všechny tyto služby jsou vybudovány na platformě internetových řešení firmy Microsoft, takže v jistém smyslu jde o "výkladní skříň" technologií této firmy.

Možnost plnotextového (fulltextového) vyhledávání nabízí vyhledávací stroj, dostupný na adrese http://www.atlas.cz i http://search.atlas.cz. Jeho domovskou stránku, představující současně i jednoduchý vyhledávací formulář, vidíte na dnešním druhém obrázku [GIF2,URL2]. Odlišné režimy kladení dotazů zde nejsou uvažovány, alespoň pokud jde o přípustnou syntaxi (viz sedmý obrázek [GIF7,URL7]) a možnost použití operátorů pro upřesnění dotazu - odlišné jsou pouze formuláře, prostřednictvím kterých uživatelé své dotazy zadávají. Jednoduchý formulář, který vidíte na dnešním druhém obrázku, neumožňuje explicitně volit setřídění a agregaci dotazů, ani volit počet odpovědí, vypisovaných na jednu výsledkovou obrazovku. Všechny odpovědi pak jsou "na jedné hromadě", a jsou setříděny implicitním způsobem, tj. podle míry, jakou vyhovují samotnému dotazu. Příklad dotazu a konkrétní odpovědi vidíte na druhém, resp. třetím obrázku [GIF3], a můžete si ji srovnat s počtem odpovědí, které na stejný dotaz našel minule navštívený Kompas (cca 30 tisíc, oproti 28 tisícům v případě Atlasu).

Předností Atlasu oproti Kompasu je možnost setřídit výsledky také jinak, než jen implicitním způsobem, a dále možnost agregování (sdružování) výsledků. K zadání takovýchto požadavků však již potřebujete "pokročilejší" formulář, který vidíte na dnešním čtvrtém obrázku [GIF4,URL4]. Dotaz zde formulujete stejně, jako při použití "jednoduchého" formuláře, ale navíc zde máte možnost předepsat si uspořádání odpovědí podle pravděpodobnosti (míry shody s původním dotazem), nadpisu (přesněji tzv. titulku), nebo podle serveru na kterém se stránka nachází. Dále je možné volit, zda odpovědi mají obsahovat krátký či dlouhý popis nalezeného dokumentu (WWW stránky)), či vůbec žádný popis. Zvolit si můžete také to, kolik odkazů má být zobrazováno na jedné stránce, od 5 do 50 odkazů. Nejzajímavější je ale možnost agregace výsledků, zde označovaná jako sdružování: máte možnost si předepsat sdružování buďto žádné, nebo podle nadpisu (titulku), nebo podle serveru. Tuto poslední možnost jsem také využil při opakovaném zadání stejného dotazu jako na druhém obrázku - zadání nového dotazu vidíte na čtvrtém obrázku [GIF4], a jeho výsledek na obrázku pátém [GIF5]. Jde přitom o výpis celkem dvanácti skupin, odpovídajících 12 serverům na kterých se nachází nalezené dokumenty. Pro každou z těchto skupin si pak lze nechat zobrazit výčet odkazů na konkrétní dokumenty, příklad vidíte na šestém obrázku. Na pátém obrázku [GIF5] si také můžete povšimnout údaje o počtu dokumentů nalezených na jednotlivých serverem - údaj uvedený na pátém obrázku u pátého bodu, resp. páté skupiny (1948) však příliš nekoresponduje s údajem, který je uveden na šestém obrázku [GIF6], a který ukazuje konkrétní výčet dokumentů z této skupiny.

Co jsem na plnotextovém vyhledávači Atlasu postrádal, je lepší podpora češtiny - ne v tom smyslu, že by se s uživateli nebavil správně česky (k tomu, aby si pamatoval jaké kódování češtiny používá konkrétní klient, využívá mechanismus tzv. cookies). Podpora různých způsobů kódování češtiny je na Atlasu dokonce explicitně inzerována prostřednictvím průběžně měněných "propagačních tabulek" (viz osmý obrázek [GIF8]), ale tato podpora se týká pouze vlastních stránek generovaných Atlasem, a nikoli vyhledávaných dokumentů. Problém je v tom, že fulltextový vyhledávací stroj použitý v Atlasu byl zřejmě vyvinut v anglosaském prostředí, a nepočítá s možností různých exemplářů jedné a téže stránky, lišících se pouze v použitém kódování (jako to naopak dělá fulltextový vyhledávač minule navštíveného Kompasu, který je tuzemské provenience). Praktický efekt pak můžete posoudit sami: na šestém obrázku [GIF6] si povšimněte prvního a třetího nalezeného dokumentu, a druhého a čtvrtého, obě dvojice jsou různými "jazykovými" verzemi jednoho a téhož dokumentu. To ale Atlas nedokáže poznat.


Seznam obrázků:

  1. Základní informace o Atlasu
  2. Domovská stránka s jednoduchým vyhledávacím formulářem
  3. Výsledek vyhledání, bez agregace výsledků
  4. Pokročilejší vyhledávací formulář
  5. Výsledek stejného dotazu jako na 2. obrázku, s agregací výsledků do skupin (podle serveru)
  6. Výpis obsahu jedné z výsledkových skupin
  7. Pravidla pro formulaci dotazů
  8. Atlas a podpora češtiny