Vyšlo v týdeníku CHIPweek č. 6/96, 6. února 1996
Vytištěno z adresy: http://www.earchiv.cz/a96/a606k140.php3

Hledání ve WWW

Dnešním dílem otevřeme novou kapitolu tohoto seriálu - stále ještě se budeme věnovat problematice vyhledávání v Internetu, ale tentokrát se již pustíme do vyhledávání v rámci dnes tak velmi oblíbené služby World Wide Web. Zabere nám to hned několik pokračování, protože jak záhy uvidíme, vyhledávání ve WWW není zdaleka bezproblémové. Právě naopak: neexistuje zde žádná jednotná vyhledávací strategie, a tudíž ani žádná jednotná vyhledávací služba. Místo ní existuje celá řada dílčích nástrojů, se kterými se budeme postupně seznamovat.

Jaký ale je důvod právě naznačené „roztříštěnosti" vyhledávání v rámci služby WWW? Proč zde neexistuje nějaká „jediná" vyhledávací služba, která by alespoň v zásadě stačila pro všechny obvyklé potřeby uživatelů? Vždyť například FTP archivy mají svou službu Archie, a případné další vyhledávací služby (jako náš Čmuchal, alias Nosey Parker) jsou spíše jen jinými implementacemi téže myšlenky a stejných principů. A jak je možné, že třeba takový Gopher vystačí s vyhledávací službou Veronica?

Důvod je především ten, že u FTP archivů i u služby Gopher je vcelku jasné, co a v čem hledat - a od toho je pak možné odvodit jednotný a do značné míry univerzální vyhledávací mechanismus. V případě FTP archivů je vždy k dispozici jméno a přípona souboru, a k tomu ještě i jména adresářů, ve kterých se daný soubor nachází. Není to sice mnoho, a nemusí to dobře vypovídat o skutečném obsahu souboru, ale je alespoň ihned jasné, „čeho se chytit" - že vyhledávat se budou znakové řetězce právě ve jménech a příponách souborů, případně i ve jménech adresářů. To je podstata služby Archie i českého Čmuchala, a těžko někdo někdy vymyslí něco zásadně odlišného. V případě služby Gopher jsou zase k dispozici textová menu, členěná na lineárně uspořádané položky. Takže zde se mohou hledat znakové v těchto položkách - což je podstata služby Veronica. Ale v čem se má hledat v případě služby World Wide Web? Představme si jako odstrašující příklad WWW stránku, která obsahuje pouze hezký grafický obrázek, na kterém je vše umně vymalováno? Čeho se „chytit" tady? Měla by vyhledávací služba usilovat o interpretování obsahu obrázků?

Na druhé straně by každá WWW stránka měla mít několik charakteristických prvků, kterých by se „dalo chytit" - například každá stránka by měla mít tzv. titulek (angl. „title"), což je údaj který většina browserů zobrazuje přímo v nejhornějším rámečku svého okénka. Například na dnešním prvním obrázku [GIF1,URL1] je tímto titulkem řetězec „Search Tools & General Listings" (za který si dnes použitý browser ještě přidal své vlastní jméno). Titulek by přitom měl být dosti směrodatný, pokud jde o obsah a celkový význam WWW stránky, ale na druhé straně není povinný (někteří autoři WWW stránek jej vůbec neuvádí), a také jeho samotný obsah je do značné míry subjektivní. Další možností jsou ukazatele URL, které jednoznačně identifikují každou WWW stránku (ale mohou označovat i jiné objekty, než jen WWW stránky). Tyto ukazatele však obsahují pouze údaje o uzlu, na kterém se daná stránka nachází, jméno (relativní) přístupové cesty a jméno a příponu souboru, ve kterém je tato stránka umístěna. Podobně jako u souborů v FTP archivech to nemusí dobře vypovídat o obsahu samotného souboru, resp. WWW stránky - navíc jsou ale ukazatele URL (alespoň v rámci služby WWW) stále častěji generovány víceméně automaticky, podle různých strategií, a nemusí vypovídat vůbec nic o samotném obsahu a významu jednotlivých stránek. Další možností pro vyhledávání v rámci WWW je textový obsah jednotlivých stránek - je-li samozřejmě k dispozici. Vzhledem k velkému objemu stránek, které jsou dnes v Internetu k dispozici, je ale velmi náročné vyhledávat v celém jejich obsahu, ve stylu tzv. fulltextového vyhledávání (ale i to je dnes možné, viz dále).

Důsledkem všech těchto skutečností je pak dnešní situace, kdy existuje celá řada různých vyhledávacích služeb, a obecně každá z nich vyhledává jinak a něco jiného. V praxi se jim také říká „vyhledávací stroje" (search engines).

Na druhé straně všechny dnešní vyhledávací služby pro vyhledávání v rámci WWW vychází ze stejného modelu, ze kterého ostatně vychází i většina ostatních vyhledávacích služeb (jako Archie, Čmuchal či Veronica). Mají určitý „okruh působnosti", v rámci kterého sbírají informace o existujících zdrojích (WWW stránkách), a tyto informace si udržují u sebe (tj. na svých serverech). Tazatelé se pak se svými dotazy obrací přímo na servery vyhledávacích služeb a dostávají odpovědi typu „hledaná stránka se nachází tam a tam". Konkrétní odlišnosti jsou samozřejmě ve způsobu sběru informací o existujících zdrojích (WWW stránkách), ale také ve způsobu jejich prezentování uživateli, který něco hledá. Zastavme se nejprve u prvního aspektu.

„Okruhem působnosti" vyhledávacích služeb pro WWW je obvykle celý Internet. Ten je ale příliš velký, než aby jej mohl nějaký vyhledávací server systematicky procházet sám a například sám objevovat nové WWW servery, které by mohl prohledat. Zde se většinou aplikuje spíše opačný přístup - správce nového WWW serveru, který jej chce učinit dostupným pro určitou konkrétní vyhledávací službu, musí sám podniknout jisté kroky, aby existenci svého serveru vyhledávací službě oznámil (tzv. svůj server zaregistroval u vyhledávací služby). Také o tom si časem povíme.

Z pohledu koncového uživatele je jistě velmi podstatný způsob, jakým mu vyhledávací služba prezentuje informace které sama získala. Zde existují dva základní přístupy: první je založen na tom, že z pohledu uživatele jsou všechny informace „na jedné hromadě" (ve skutečnosti ve vhodné databázi, která je ale před uživatelem skryta), a jedinou možností je automatické vyhledávání na základě vznášených dotazů. Tedy ve stylu: uživatel zadá svůj dotaz (typicky klíčové slovo či skupinu klíčových slov), a jako odpověď dostane lineární seznam odkazů na stránky, které jeho dotazu vyhovují.

Druhou možností je to, aby provozovatel vyhledávací služby sám uspořádal získané informace o dostupných zdrojích (stránkách) do členěné uspořádané hierarchie - dovedeno ad absurdum, ze získaných informací je sestaveno jedno obrovské menu, kterým může uživatel sám dle libosti procházet (angl.: to browse). Obvykle to ale vyžaduje (na rozdíl od předchozí varianty) velký podíl lidské práce. Uživatelům je přitom téměř vždy nabízeno také automatické vyhledávání, ve stylu první varianty.

Zřejmě nejznámějšími příklady druhé varianty vyhledávacích služeb jsou služby Yahoo a GNN (viz obrázky). Příkladem „vyhledávacích strojů" dle první varianty jsou například služby Lycos, Web Crauler, Infoseek Guide, a z nejnovějších pak vyhledávací služba Alta Vista firmy Digital. Ta je v jistém ohledu výjimečná, neboť usiluje o poskytování skutečně plnotextového vyhledávání v rámci celého WWW (a dokonce i v rámci prakticky celého USENETu, nebo tzv. síťových news).


Seznam obrázků:

  1. Jeden z mnoha seznamů odkazů na různé vyhledávací služby, s jejich dělením do obou základních variant, [URL]
  2. Domovská stránka vyhledávací služby Lycos, [URL]
  3. Domovská stránka vyhledávací služby Web Crawler , [URL]
  4. Domovská stránka vyhledávací služby Infoseek Guide , [URL]
  5. Domovská stránka vyhledávací služby Alta Vista , [URL]
  6. Domovská stránka vyhledávací služby Yahoo , [URL]
  7. Domovská stránka vyhledávací služby GNN , [URL]