Vyšlo v týdeníku CHIPweek č. 26/95, 25. října 1995
Vytištěno z adresy: http://www.earchiv.cz/a95/a526k140.php3

WAIS hledá v dokumentech

Vyhledání čehokoli v tak obrovské zásobárně informací, jakou je Internet, je velmi netriviální záležitostí. Dosud jsme se seznámili jen s takovými vyhledávacími službami, které dokáží vyhledávat podle jmen a přípon souborů (služby Archie a tuzemský Čmuchal), nebo podle textů, obsažených v položkách Gopherských menu (služba Veronica). Dnes bych vám rád představil takovou službu, která dokáže jít „dovnitř" do textových dokumentů, a hledat i v jejich samotném obsahu. Jde o službu WAIS, plným jménem Wide Area Information Service.

Službu WAIS je možné si představit jako nástroj, který umožňuje tzv. plnotextové (full-textové) vyhledávání v dokumentech. Dokáže tedy například najít dokument, ve kterém se vyskytuje zadané slovo či několik zadaných slov. Navíc pracuje v síťovém prostředí Internetu, a dokáže tedy hledat i dokumenty, nacházející se na nejrůznějších místech po celém světě. Nejde tedy nakonec o ideální vyhledávací službu, která všechny ostatní vyhledávací služby zcela zastíní a učiní nepotřebnými?

Ne tak docela. I služba WAIS má samozřejmě svá úskalí a omezení. Například její „okruh působnosti" musí být výrazně menší, než u služeb jako Archie či Veronica. Jestliže totiž WAIS jde až „dovnitř" konkrétních dokumentů, pak objem informací, které musí sledovat a „vést v patrnosti", je neskonale větší, než kdyby si všímal pouze jmen souborů či krátkých textů v položkách Gopherských menu. Archie i Veronica si ještě v zásadě mohou dovolit mít globální dosah a sledovat zdroje v celém Internetu - i když konkrétní servery často záměrně omezují svůj okruh působnosti, aby „nepraskly ve švech". V případě služby WAIS podobný globální dosah rozhodně nepřipadá v úvahu. Zde je šance pouze na to, aby jednotlivé servery služby WAIS „obhospodařovaly" jednotlivé knihovny dokumentů - typicky dokumenty, umístěné na jediném počítači (na kterém obvykle běží i samotný server služby WAIS). To pak má i některé významné důsledky. Zatímco u služeb Archie a Veronica bylo v zásadě jedno, na který server jste se obrátili (s jistými výjimkami), v případě serverů služby WAIS to rozhodně jedno není. Zde se přitom místo o konkrétních serverech služby WAIS mluví spíše o databázích či o „zdrojích" (angl. „sources). Je to mj. i proto, že na jednom a témže počítači může být umístěno i několik takovýchto databází.

Chcete-li proto něco najít prostřednictvím služby WAIS, musíte učinit dva zásadní kroky: · musíte najít vhodnou databázi (zdroj), u které je šance že by mohla obsahovat nějaký vámi hledaný dokument, nebo několik takovýchto databází · teprve pak můžete položit konkrétní dotaz jedné databázi či celé skupině databází najednou.

Jak ale najít vhodnou databázi, a jakým způsobem se toto hledání vlastně dělá? Jednoduše - existují WAIS-ovské databáze, které obsahují právě takovéto odkazy na jiné databáze. Poznáte je podle obvyklé konvence, která říká že ve svém jméně obsahují výmluvné slovní spojení „directory od servers".

Podívejme se nyní na vše z ryze praktického pohledu. Ke službě WAIS se můžete dostat různými způsoby, např. prostřednictvím tzv. veřejných klientů, či z jiných služeb (např. Gopher či WWW) skrz vhodné bran. To si ale ukážeme až v dalších pokračováních, protože dnes bych vám chtěl ukázat použití „základního" způsobu přístupu ke službě WAIS, konkrétně využití lokálního klienta této služby.

Lokálních klientů služby WAIS existuje celá řada, pro různé platformy. Já jsem si pro potřeby tohoto dílu stáhnul aktuální verzi jednoho sharewarového klienta pro MS Windows (najdete jej např. na adrese ftp://ftp.vse.cz/pub/cica/winsock/ewais200.zip). Ten měl již v sobě „předkonfigurován" odkaz na jednu konkrétní databázi typu „directory of servers" (tedy „databázi databází") - konkrétně na databázi WAIS serverů, udržovanou firmou Thinking Machines, která se mj. podílela na vývoji služby WAIS. Všechny údaje o této databázi (tak jak je prezentuje zmíněný WAIS klient), vidíte na dnešním prvním obrázku [GIF1].

První, co jsem musel udělat, bylo zadat této databázi dotaz na jiné databáze, které by již obsahovaly konkrétní dokumenty. Jelikož jsem se chtěl podívat po dokumentech, týkajících se internetových služeb, zadal jsem konkrétní dotaz ve tvaru „Internet services". Zadání dotazu „databázi databází" u firmy Thinking Machines vidíte na dnešním druhém obrázku [GIF2], a výsledek (odpověď) na obrázku třetím [GIF3] - povšimněte si, že odkaz na databázi poznáte podle přípony „.src". Údaje o jiné oblíbené a často inzerované databázi databází (directory of servers), od které by také bylo možné začít hledání, vidíte na čtvrtém obrázku [GIF4].

Dalším mým krokem bylo položení konkrétního dotazu. Jelikož jsem se chtěl zeptat na standardizaci jazyka HTML, vybral jsem si celkem čtyři různé databáze, u kterých jsem z jejich názvu usuzoval, že by mohly obsahovat relevantní dokumenty. Tuto skupinu databází vidíte na pátém obrázku [GIF5]. Na šestém obrázku [GIF6] je pak odpověď na dotaz (tvořený jediným slůvkem „HTML"), kterou jsem od této skupiny databází dostal. Když jsem si pak ze zvědavosti navolil hned první dokument, dozvěděl jsem se, že šlo o předběžný návrh standardu tohoto jazyka, který však byl stažen.

Abych vám tedy ukázal něco jiného, vrátil jsem se zpět k „databází databází", a nechal si vyhledat databáze s informacemi o cestování (jako dotaz jsem zadal slovo „travel") [GIF7]. V nalezených databázích mne zaujala ta, která obsahuje různá doporučení ministerstva zahraničí USA pro lidi, kteří cestují do zahraničí. Této databázi jsem pak zadal dotaz „Czech", a výsledek vidíte na dnešním osmém obrázku [GIF8]. První v pořadí byl dokument, který jsem si záhy nechal zobrazit - úryvek z něj vidíte na dnešním posledním obrázku [GIF9].

Příště si povíme něco podrobnějšího o kladení dotazů a o způsobu fungování služby WAIS - například o tom, co znamená ono „skóre", které vidíte v poskytnutých odpovědích. Také si poněkud poopravíme představu o tom, že služba WAIS skutečně „jde" až do vlastního obsahu dokumentů. Ve skutečnosti to za ni dělá někdo jiný, ale celkový efekt je přesně takový, jak jsme si jej popisovali - prostřednictvím služby WAIS můžete vyhledávat v obsahu dokumentů. A dokonce nejen textových dokumentů. Ale o tom opravdu až příště.


Seznam obrázků:

  1. Údaje o „databázi databází" u firmy Thinking Machines
  2. Dotaz „databázi databází" (directory of servers), na téma „Internet services"
  3. Odpověď - seznam relevantních databází
  4. Údaje o jiné „databázi databází"
  5. Skupina databází, které bude položen dotaz (heslo „HTML")
  6. Výsledek dotazu „HTML" skupině databází
  7. Zobrazení jednoho z nalezených dokumentů
  8. Odpověď na dotaz („Czech"), položený jedné konkrétní databázi (min. zahraničí USA)
  9. Úryvek jednoho z nalezených dokumentů