Vyšlo v časopise Telekomunikační revue, č. $/98
Vytištěno z adresy: http://www.earchiv.cz/arevue/a804r200.php3

Vyhledávání v Internetu

Dnešní Internet je opravdu velmi velkým zdrojem informací - tak velkým, že před ním bledne závistí i příslovečná kupka sena, ve které má být nalezena jedna malá jehla. Jak to tedy je s vyhledáváním v Internetu? Je vůbec nějaká šance v něm něco konkrétního najít?

Faktem je, že vyhledávání v Internetu není jednoduché. Vedle obrovského množství informací, které jsou v něm dostupné, k tomu přispívá i jejich málo systematické uspořádání - mnohem menší než jaké je zvykem v běžných knihovnách, s jejich rejstříky, katalogy, indexy apod. Na druhé straně Internet má obrovskou výhodou v tom, že se neomezuje jen na "ruční" zpracování evidence dostupných informací, ale umožňuje nasadit i velmi výkonné a rychlé vyhledávací mechanismy, fungující zcela automaticky. Za všechno se ale něčím platí - čím více budou tyto vyhledávací mechanismy fungovat bez účasti člověka, tím menší budou mít šanci posoudit skutečnou kvalitu a význam jakýchkoli informací, a zvýšit míru jejich utříděnosti.

Z této skutečnosti je pak odvozena i nabídka vyhledávacích mechanismů a služeb na Internetu: je jich k dispozici celá škála, a liší se právě v tom, jakým způsobem se vyrovnávají s problémem velkého objemu dostupných informací a jejich relativně nízkou utříděností a nízkou kvalitou. V prvním přiblížení by bylo možné říci, že na okrajích zmíněné škály jsou dva význačné "krajní" přístupy:

  • přístup "hrubou silou", který se snaží obsáhnout co možná největší okruh informací, byť za cenu toho, že při tak velkém objemu nedokáže nijak posoudit jejich obsah a kvalitu
  • přístup "katalogizační", který se snaží co nejlépe posoudit jejich obsah a kvalitu, byť za cenu toho, že dokáže obsáhnout jen velmi malou část dostupných informací.

Pojďme si oba krajní přístupy rozebrat podrobněji.

Přístup "hrubou silou", aneb vyhledávací služby databázového typu

Pro přístup, označený přívlastkem "hrubou silou", je charakteristické to, že se snaží aplikovat takové mechanismy a postupy, které je možné plně zautomatizovat, neboli zajistit bez účasti člověka a lidské práce. Díky výkonnosti dnešních informačních technologií je pak možné obsáhnout skutečně nesmírně velké objemy informací, ale není možné k nim přidat to, co je zatím výsadou člověka: jejich hodnocení, klasifikaci podle významu a obsahu, posouzení jejich relevantnosti atd. Ve skutečnosti tedy vyhledávací mechanismy a služby tohoto typu pracují spíše s daty než s informacemi, protože nedokáží posoudit jejich věcný obsah - dokáží poměrně efektivně vyhledat výskyt konkrétních slov ve velkých objemech textu, ale nedokáží posoudit, co tato slova znamenají, v jakém kontextu jsou psána, co vyjadřují, a jaká je jejich "vypovídací hodnota".

Vyhledávací mechanismy, fungující na tomto principu, typicky prohledávají všechny WWW stránky prakticky v celém Internetu, a tzv. je indexují - mechanicky registrují výskyt každého jednotlivého slova na dané WWW stránce (bez toho že by se zabývaly jeho obsahem a významem), a údaj o jeho výskytu si zanáší do své databáze. Když pak uživatel něco konkrétního hledá, musí se obrátit na tuto databázi a položit jí dotaz typu "na kterých stránkách se vyskytuje slovo X (nebo skupina slov XYZ atd.)"? Jako odpověď dostane odkazy na stránky, o kterých vyhledávací mechanismus ví, že se v nich hledané slovo (či slova) vyskytuje, načež uživatel si již sám musí "dojít" pro příslušnou stránku, tu si přečíst a sám posoudit, zda je tím co hledal.

Pro snazší pochopení je možné přirovnat tento způsob vyhledávání k jednoduchému plnotextovému vyhledávání, prováděnému v rozsahu (prakticky celého) Internetu.

Historicky první vyhledávací službou, fungující právě naznačeným způsobem a schopnou obsáhnout skutečně relevantní část celého Internetu, se stala vyhledávací služba AltaVista (na adrese: http://altavista.digital.com), uvedená do provozu v prosinci roku 1995. Další služby pak následovaly jejího příkladu (např. služba HotBot, http://www.hotbot.com), a časem se objevily i obdobně fungující služby s "lokálním" dosahem, mapující např. národní prostor českého Internetu (např. služby Atlas, http://www.atlas.cz a Kompas, http://kompas.seznam.cz, mapující jen tuzemské WWW stránky).

Klíčem k úspěchu při práci s vyhledávacími službami tohoto typu je schopnost správně se jich zeptat, tedy schopnost formulovat správně dotaz kladený databázi, ve které si vyhledávací služba pamatuje, kde všude se vyskytuje které klíčové slovo. Problém je v tom, že při obrovském objemu zmapovaných informací bývá typická odpověď na typický dotaz taková, že hledané klíčová slova se vyskytuje na několika desítkách či dokonce stovkách tisíc WWW stránek. To je pro tazatele bezcenná odpověď, protože tak velký objem WWW stránek nemá šanci sám projít a posoudit jejich relevantnost. Místo toho musí upřesnit svůj dotaz, tak aby výsledkem byl únosně malý počet nalezených stránek (například do deseti). A právě takovéto upřesňování dotazů, které skutečně není nijak triviální, je největším kamenem úrazu.

S trochou nadsázky by šlo říci, že čím "větší" je takováto vyhledávací služba, tím těžší je se jí správně zeptat - tak aby výsledek odpovídal skutečným představám tazatele. S dalším růstem objemu dostupných informací, i s růstem "velikosti" takto fungujících vyhledávacích služeb, pak bude obtížnost jejich použití ještě dále růst.

Myšlenka katalogů

Na opačném konci celé škály vyhledávacích mechanismů jsou tzv. katalogy (či: vyhledávací služby katalogového typu). Jak již jejich název napovídá, a podobně jako nejrůznější "papírové" katalogy, pracují s určitým systémem hierarchicky uspořádaných tematických kategorií (či tříd, "přihrádek", "škatulek" apod.), do kterých se snaží zařazovat odkazy na jednotlivé informační zdroje, o jejichž existenci se dozvědí. Právě zde je zdroj jejich vysoké přidané hodnoty: někdo (člověk) totiž posoudí obsah a význam určitého informačního zdroje (typicky WWW stránky), a pak ji zařadí do jím zvolené předmětové kategorie (či několika kategorií).

Výsledkem je pak skutečný katalog, byť v elektronické Internetové podobě, kterým uživatelé mohou listovat - mohou procházet (brouzdat se) jeho systémem předmětových kategorií a zde si prohlížet odkazy na dostupné informační zdroje. To je výhodné zvláště v situaci, kdy uživatelé zcela přesně nevědí, co vlastně hledají - třeba něco z oblasti sportu, a tak nejprve navštíví kategorii "sport", poté se rozhodnou třeba její pro podkategorii "sport - lední hokej", a zde třeba pro další podkategorii "domovské stránky klubů extraligy", a takto pokračují, dokud nenajdou to co hledají, nebo dokud je nezaujme nějaký konkrétní odkaz, po kterém se vydají již přímo na příslušný informační zdroj. Takovýto "inspirační" způsob práce, spočívající v postupném procházení soustavou nabídek předmětových kategorií, by u vyhledávacích služeb databázového typu (popisovaných v předchozím odstavci) nebyl možný, zde totiž žádné nabídky nejsou (a místo toho je nutné položit explicitní dotaz, na který přijde konkrétní odpověď).

Snad nejznámějším příkladem vyhledávací služby katalogového typu je služba YAHOO (http://www.yahoo.com), katalogizující odkazy na informační zdroje po celém světě. U nás vznikla obdobně koncipovaná služba Seznam (http://www.seznam.cz), zaměřená výhradně na tuzemské zdroje, a časem se objevily i některé další české katalogy.

Katalogy s vlastním názorem a katalogy přejímající cizí názor

Obecnou nevýhodou všech katalogů je nutné zapojení lidského faktoru při zatřiďování odkazů do jednotlivých předmětových kategorií a podkategorií - právě zde je příčina toho, že katalogy nemohou obsáhnout příliš velké objemy informací. Zajímavý je ostatně i způsob, jakým se takovéto katalogy dozvídají o existenci nových zdrojů, které pak katalogizují: jednou možností je to, že provozovatelé katalogu si platí skupinu lidí, kteří se neustále brouzdají Internetem a objevují nové zdroje. Pak je přirozené, aby právě tito lidé popsali nově nalezený zdroj, resp. udělali si na něj vlastní názor a podle něj pak sestavili takový druh popisu, s jakým daný katalog pracuje (což může být jen velmi stručná noticka typu "server nabízí obrázky hezkých slečen", až po mnohem propracovanější popis typu podrobné recenze, včetně poznatků o dostupnosti apod.). Výhodou je jednotnost a "rovnoměrnost" hodnocení, nevýhodou pak velký objem lidské práce, a tudíž i velké náklady. Katalogů právě popsaného typu je pro jejich náročnost poměrně málo. V našem tuzemském Internetu takto funguje zatím jen jediná vyhledávací služba jménem Zmije (http://www.zmije.cz).

Častější variantou jsou takové katalogy, které fungují pasivním způsobem - neplatí si žádné vlastní "brouzdače", ale spoléhají se spíše na to, že zřizovatelé nových zdrojů je sami upozorní na příslušné novinky. V rámci tohoto "upozornění" pak oznamovatel sám poskytne potřebné katalogizační informace, neboli stručný popis svého zdroje (nejčastěji jednořádkový, nebo na několik málo řádek), zatímco provozovatel katalogu poskytnuté údaje pouze zařadí do své evidence (ale často si je sám nejprve ověří). Jak jsme si ale již naznačili v úvodu, je vlastní oznámení (nazývané spíše "zaregistrováním nového zdroje u příslušného katalogu") v bytostném zájmu zřizovatelů nových zdrojů, ale na druhé straně katalogů je hodně, a zřizovatelé nových zdrojů nemusí zdaleka o všech existujících katalozích vědět. Stejně tak katalogy "s vlastním názorem" nemají nikdy šanci zmapovat úplně všechny existující zdroje. Důsledkem je pak to, co jsme si již mnohokráte naznačovali: žádný katalog, ani žádná jiná vyhledávací služba, nemá patent na úplnost. Když něco nenajdete v jednom katalogu či v jiné vyhledávací službě, ještě to neznamená, že to neexistuje - zkuste to hledat také jinde.

Trend k integraci vyhledávacích služeb

Zopakujme si znovu, že dva základní druhy vyhledávacích služeb, které jsme si právě popsali - tedy vyhledávací služby databázového typu a vyhledávací služby katalogového typu (zkráceně: katalogy), stojí v určitém smyslu proti sobě jako dva extrémy, resp. jako dva protipóly. Rozdíly mezi nimi jsou mj. v jejich velikosti - služby databázového typu jsou schopny zmapovat až desítky milionů WWW stránek, zatímco největší katalogy evidují maximálně desítky tisíc odkazů na dostupné zdroje (v nejlepším případě stovky tisíc). Snad nejmarkantnějším rozdílem je ale celkový způsob jejich fungování z pohledu uživatele - katalogy nabízí celou soustavu nabídkových stránek (odpovídajících systému předmětových kategorií a podkategorií), kterými se hledající uživatel může podle libosti brouzdat, zatímco služby databázového typu žádné nabídkové stránky k brouzdání nenabízí, a nutí uživatele klást vyhledávací dotazy. Každá varianta je samozřejmě výhodnější v jiné situaci, resp. pro jiného uživatele - pro toho, kdo poměrně přesně ví co hledá a dokáže to formulovat do podoby vyhledávacího dotazu, jsou vhodné vyhledávací služby databázového typu. Naopak pro uživatele, kteří nemají přesnější představu o tom co hledají (a v lepším případě to poznají v okamžiku, kdy to najdou), jsou zase výhodnější katalogy s jejich nabídkovými stránkami.

Život ovšem není černobílý, a stejně tak uživatelé nespadají vždy jen do obou právě naznačených kategorií, kterým by jednoznačně vyhovovala jedna, nebo naopak druhá vyhledávací služba. Proto je v současné době velmi markantní trend ke splývání obou krajních variant - řešený spíše integrací obou druhů vyhledávacích služeb na jednou společném základě. Lze to ostatně dokumentovat i na příkladu nejznámějších tuzemských vyhledávacích služeb.

Příklad z tuzemska: Seznam, Atlas a další

Vyhledávací služba Seznam (http://www.seznam.cz) vznikla jako typický představitel katalogů - po vzoru americké služby Yahoo (proto se jí jistý čas dokonce přezdívalo "české Yahoo"). Časem si ale tento katalog pořídil "doplněk" ve vyhledávací službě databázového typu jménem Kompas (http://kompas.seznam.cz). Obě vyhledávací služby, seznam a Kompas, pak pojí nejen společný zřizovatel a provozovatel, ale především jejich vzájemná provázanost - hledáte-li něco u jedné z těchto služeb a neuspějete-li, je vám nabídnuto vyhledání téhož i ve druhé službě. Dlužno ještě dodat, že Seznam i Kompas se soustřeďují jen na tuzemské odkazy.

Další významnou tuzemskou vyhledávací službou je služba jménem Atlas, na adrese http://www.atlas.cz. Ta vznikla již jako integrovaná vyhledávací služba, jejímž hlavním prvkem je vyhledávač databázového typu, doplněný nejen katalogem, ale i dalšími specializovanými vyhledávacími službami (pro vyhledávání lidí a jejich emailových adres, a pro vyhledávání uživatelů dostupných pro on-line komunikaci prostřednictvím Internetu).

Analogický Atlasu je i služba Search CZ, provozovaná naším Telecomem, na adrese http://www.search.cz. Také tato služba vznikla již od začátku jako integrovaná, tvořená vyhledávačem databázového typu a doplněná vlastním katalogem. Analogickou genezi jako Seznam pak měl další katalog, jménem U zdroje (http://www.uzdroje.cz). Ten vzniknul nejprve jako samostatný katalog, a teprve dodatečně si pořídil databázový "doplněk" jménem Pavouk (http://pavouk. Cesnet.cz).

Ještě dalším typickým rozšířením vyhledávačů je pak jejich doplnění o adresář osoba jejich emailových adres - u nás jej nabízí jak Atlas, tak i Seznam.

Další trend: nejen vyhledávač, ale ucelený informační zdroj

Příjemnou vlastností drtivé většiny vyhledávacích služeb je fakt, že pro své uživatele fungují zadarmo. Samy ovšem musí "z něčeho žít" - a to je vesměs reklama. Nejčastěji jsou vyhledávací služby živy z tzv. reklamních proužků, které umisťují na své stránky. Vzhledem k poměrně vysoké návštěvnosti vyhledávacích služeb to může být atraktivní i pro zadavatele reklamy, a tak je tento způsob financování obvykle schopen příslušné služby "uživit".

Vyhledávací služby pak samozřejmě mají samy zájem na co největší návštěvnosti svých stránek (což jim umožňuje zvyšovat cenu za reklamu na svých stránkách). Jedním ze způsobů, jak si svou návštěvnost zvýšit, je i poskytování dalších informačních služeb, než jen "pouhé" vyhledávání. Příkladem může být poskytování zpravodajských přehledů, předpovědí počasí, programů televize a rozhlasu, různých aktuálních zajímavostí apod.

Za zmínku stojí i fakt, že přední vyhledávací služby, které tomuto trendu vychází vstříc, využívají k poskytování "přidaných služeb" nejnovější technologie v oblasti zpracování informací, zejména pak technologie information push (neboli tzv. push kanály). Opět to lze dokumentovat na příkladu obou našich největších vyhledávacích služeb Seznam a Atlas, které obě svých uživatelům poskytují takovéto push kanály, zaměřené na poskytování všeobecných informací.