Vyšlo v měsíčníku TelNet č. 6/97, červen 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a706p200.php3

Orientace a vyhledávání v Internetu (I.)

Globální počítačová síť Internet je dnes předmětem zájmu opravdu mnoha lidí - proto, že je schopná jim nabídnout mnoho užitečných služeb. Jejich zvládnutí a využití dnes již není až tak velkým technickým problémem, největší překážkou se stává spíše otázka orientace uživatelům v báječném, ale značně rozsáhlém a mnohdy nepříliš přehledném světě Internetu. A právě této problematice, tedy orientaci a vyhledávání v Internetu, je věnována volná série článků, která dnes začíná.

Začněme nejprve trochou historie: Internet nevzniknul naráz, ale svou současnou podobu získal až po určité době postupného vývoje. Během této doby se samozřejmě měnily i internetové služby, a s nimi pak i celkový styl práce uživatelů v Internetu. Dříve existoval poměrně bohatý repertoár různých služeb, se kterými uživatelé pracovali, a stejně tak bohatý byl i repertoár nástrojů a způsobů ovládání, které uživatelé museli zvládnout - snad každá služba si totiž zaváděla vlastní mechanismy fungování, vlastní klientské programy, a v neposlední řadě i vlastní celkovou filosofii a styl práce. Naštěstí to bylo ještě v době, kdy uživateli Internetu byli především lidé z akademické sféry, u kterých bylo možné očekávat, že se přizpůsobí tomu, co od nich Internet požaduje.

Později se ale Internet otevřel komerčnímu využití, jeho otěže převzala do svých rukou komerční sféra, a ta se také postarala o jeho masové rozšíření, i mimo akademickou sféru. Zde ovšem již neplatil předpoklad o tom, že to budou lidé (uživatelé), kdo se přizpůsobí Internetu - nyní to již muselo být přesně naopak. A tak jsme se stali svědky zajímavého trendu, směřujícího k unifikaci a značnému zjednodušení práce v Internetu. Trendu, který z "Internetu pro odborníky" udělal "Internet pro každého", a významně zredukoval i repertoár do té doby provozovaných služeb. Některé dříve používané služby prakticky zanikly (například služby Gopher a WAIS), a jejich místo zaplnila dnes tolik populární služba World Wide Web, schopná nabídnout jak vysokou uživatelskou atraktivnost (hezké a líbivé stránky), tak i vysokou intuitivnost a snadnost svého ovládání (uživatel jednoduše klikne myší na to, co má na mysli). Původní charakter této služby, zaměřený na prezentaci informací převážně v textové podobě, se s postupem času také změnil - World Wide Web se stal univerzální platformou pro zpřístupnění informací v nejrůznějších podobách (tedy nejen v psané podobě), a stejně tak se stal i platformou, na které jsou poskytovány další služby, dříve řešené jako samostatné -například různé vyhledávací služby, přístup do databází, interaktivní služby apod.

Vzhledem k povaze a dominantnímu postavení služby World Wide Web je proto orientace v báječném světě Internetu do značné míry orientací ve světě této služby, a v její "celosvětové pavučině", kterou si dokonce dala přímo do svého názvu (vždyť anglické "World Wide Web" v doslovném překladu znamená právě "celosvětovou pavučinu").

Domovské stránky a jejich filosofie

Služba World Wide Web je vybudována na principu hypertextu, který umožňuje rozčlenit informace na menší, snáze přehledné celky (označované jako stránky), a ty pak provázat vzájemnými odkazy - přesněji jednotlivé dílčí informace provázat pomocí odkazů s dalšími informacemi, která s nimi souvisí (a které se nachází buď na téže stránce, nebo na jiných stránkách). Právě tímto vzájemným provázáním přitom vzniká ona "celosvětová pavučina", kterou si služba WWW dala do svého názvu. Důležitý je ale cíl, který se takovýmto provázáním sleduje: je jím možnost, aby si uživatel (čtenář) sám volil, jaké informace, v jakém sledu a jakým tempem chce přijímat.

Služba World Wide Web tedy umožňuje informace nejprve utřídit či jinak předzpracovat, a pak je zpřístupnit uživatelům v takové podobě, jaká je pro ně snadno přijatelná, přirozená a "vstřebatelná". Ovšem míra "šikovnosti" takovéhoto způsobu prezentování informací doslova stojí a padá se schopnostmi autora WWW stránek - tedy se schopnostmi člověka, který sám dostane (či leckdy spíše "vydoluje") výchozí informace například na papíře, ve formě letáků, závěrečných zpráv apod., a poté převádí je do podoby WWW stránek.

Každý autor WWW stránek vždy má určitý tvůrčí záměr, ze kterého pak vychází konkrétní způsob, jakým své informace rozdělí do jednotlivých stránek. Součástí tohoto tvůrčího záměru je i představa o tom, kudy by lidé měli vstupovat do vznikající soustavy vzájemně provázaných stránek - tedy například do WWW stránek prezentujících určitou firmu, organizaci či jinou instituci, nebo stránek prezentujících například fotbalové mužstvo či konkrétní osobu. Takovýmto stránkám, které představují zamýšlený vstupní bod do určité soustavy stránek, se ne nadarmo říká domovské stránky (home pages) - jsou to právě tyto domovské stránky, jejichž adresy jsou nejčastěji inzerovány, v nejrůznějších letácích, brožurkách, inzerátech, na vizitkách apod. Domovské stránky jsou také tím, co je shromažďováno, tříděno a nabízeno v nejrůznějších katalozích, ať již tištěných či čistě elektronických.

Domovské stránky jsou charakteristické tím, že se snaží vyjít vstříc uživatelům, kteří příslušné stránky dosud nenavštívili. Proto také obsahují obvyklé uvítání, základní informace o prezentovaném subjektu, a nabídku dalších dostupných informací (tj. i nabídku možného pokračování na dalších stránkách). Uživateli, který skutečně přichází poprvé, podruhé, potřetí apod., zde většinou nevadí, že musí postupně "proklikávat" k tomu, co konkrétně hledá - hlavní důraz je zde právem kladen na přehlednost a snadnost orientace.

Zcela jinak tomu ale bude v případě, kdy někdo navštěvuje určité WWW stránky opakovaně, například již posté. Pak by mu asi hodně vadilo, kdyby se musel k požadovaným informacím na určité konkrétní stránce dlouze "proklikávat" až z domovské stránky. Pro takovéhoto uživatele je mnohem účelnější mít možnost si někde zapamatovat adresu již jednou navštívené WWW stránky, a příště ji moci využít a vydat se přímo na tuto konkrétní stránku. V celosvětové pavučině světa WWW to naštěstí je možné, protože každá jednotlivá WWW stránka má svou konkrétní adresu (tzv. ukazater URL), a takovouto adresu lze klientskému programu služby WWW (tzv. browseru) kdykoli explicitně zadat. Jinou otázkou samozřejmě je, jak to učinit co možná nejpohodlněji, tj. kde a jak si pamatovat takovéto odkazy na již navštívené stránky, aby je uživatel mohl kdykoli co nejsnáze a nejpohodlněji využít. Většina browserů zde naštěstí vychází uživatelům vstříc, a umožňuje jim práci s tzv. záložkami (bookmarks), které tento problém řeší.

Podstata celosvětové pavučiny

Pro správné pochopení a docenění toho, co skutečně je celosvětová pavučina služby WWW, je vhodné si zdůraznit jeden důležitý fakt: totiž že jednotlivé WWW stránky se mohou na sebe vzájemně odkazovat bez ohledu na to, kde se nachází. Z jedné stránky tudíž mohou vést odkazy na jiné stránky nacházející se na témže počítači, stejně tak jako odkazy vedoucí na stránky umístěné na jiném počítači, třeba i na druhém konci světa. V tomto smyslu svět Webu skutečně nezná žádných geografických hranic. Umožňuje vzájemně provázat nejrůznější informační zdroje, umožňuje aby se určité konkrétní informace explicitně odkazovaly na jiné informace, nacházející se na jiném místě či jiných místech, neboli aby se různé části informací vzájemně prolínaly, doplňovaly, rozšiřovaly, upřesňovaly, nebo si navzájem oponovaly, konkurovaly, či se dokonce navzájem vyvracely atd. Tím vším se zvyšuje informační bohatství světa WWW - někdy ovšem za cenu snížené přehlednosti, srozumitelnosti a snadnosti orientace. I zde totiž platí, a to možná ještě ve vetší míře než u domovských stránek, že vše stojí a padá se schopnostmi autorů WWW stránek: je na nich, jak dobře prováží "své" informace s "cizími" informacemi, a jak dobře přehledný a srozumitelný bude výsledný celek, a jak přirozená a intuitivní bude pro uživatele navigace v něm. Tím celkem přitom není nic menšího, než celosvětová pavučina služby World Wide Web, představující dnes rozhodující část informačního bohatství Internetu.

Základní možnosti orientace

Zkusme si nyní shrnout, jaké možnosti má uživatel, který se chce v Internetu orientovat, pohybovat se v něm, nebo přímo najít něco konkrétního. Základní možností je postupné přecházení z jedné stránky na druhou, prostřednictvím odkazů kterými jsou jednotlivé stránky provázány. Takovýto způsob práce, označovaný také jako brouzdání (anglicky: browsing) je pro službu WWW natolik charakteristický, že podle něj byly dokonce pojmenovány i klientské programy sloužící k práci se službou World Wide Web - ne nadarmo se jim v angličtině říká "browsers".

Kromě "brouzdání" se ale uživatel může kdykoli explicitně vydat na kteroukoli WWW stránku v rámci celého Internetu - ovšem pouze pokud zná její přesnou adresu (přesněji tzv. URL ukazatel na tuto stránku). Takovýto odkaz je možné získat mnoha různými způsoby (například z inzerátů, nabídek, tištěných katalogů, vizitek apod.), nebo z předchozího brouzdání (když si je uživatel nezapomene někam vhodně poznamenat), nebo je často možné je i uhodnout, na základě znalosti obvyklých konvencí - například česká firma ABC se podle všeobecných zvyklostí nejspíše bude snažit, aby její domovské stránky byly dostupné na adrese www.abc.cz. V dalších pokračováním této série článků se budeme zabývat tím, jak je možné si vést evidenci takovýchto odkazů pro osobní potřebu jednotlivých uživatelů, neboli jak si co možná nejpohodlněji a nejefektivněji vkládat "záložky" (anglicky: bookmarks) do celosvětové pavučiny, a pak se k nim kdykoli později vracet.

Jednotliví uživatelé ovšem nemají moc šancí "zmapovat" významnější části Internetu a shromáždit alespoň trochu reprezentativní seznamy odkazů na relevantní zdroje - alespoň ne takoví uživatelé, kteří mají na starosti i jiné věci, než samotné objevování a katalogizování zajímavých zdrojů na Internetu. Pro ně je výhodnější, když mohou využít seznamy odkazů připravené někým, kdo je na vyhledávání a katalogizování dostupných zdrojů specializován, dokáže to dělat s dostatečným přehledem, s dostatečným "dosahem", a dostatečně efektivně.

Seznamy zdrojů, katalogy a databáze

V dnešním Internetu existuje bohatá škála možností, jak shromáždit, uspořádat a následně nabídnout k využití ostatním uživatelům informace o existujících zdrojů. Vytváří dokonce celé široké spektrum, které začíná u nejjednodušších forem schopných "pokrýt" jen tematicky úzce zaměřenou oblast, až po nejvíce propracované formy s obrovským dosahem a věcným "záběrem". Důležité přitom je uvědomit si, že ve všech případech jde v jistém smyslu o "prázdné informace", které samy neobsahují nic nového, co by jinde nebylo dostupné. Jejich přínos je v tom, že shromažďují "informace o existenci informací", a přidávají k nim další hodnotu tím, že je nějakým způsobem klasifikují, uspořádávají atd., a udržují je pohromadě.

Na jedné straně celého širokého spektra jsou tzv. seznamy zdrojů (anglicky nejčastěji: resource lists). Jsou charakteristické tím, že jsou monotematické, tj. zaměřené na jednu specifickou oblast, a jsou typicky dílem jednoho člověka. Nejčastěji jde o pokročilejší vývojové stádium seznamu záložek (tzv. bookmarků), které si pro svou potřebu a podle svého profesního a odborného zájmu udržuje určitý konkrétní člověk, a posléze se rozhodne svůj seznam zpřístupnit i ostatním uživatelům. V praxi to znamená, že původní seznam záložek, sloužící pouze jeho osobní potřebě, převede do formy WWW stránky a umístí ji na vhodný WWW server, tak aby tato stránka byla přístupná všem uživatelům Internetu. Velmi často jsou takovéto seznamy zdrojů součástí osobních stránek svých autorů, a s jejich schopnostmi, odborným přehledem a šikovností také stojí a padá jejich kvalita a užitečnost pro ostatní uživatele.

Zhruba uprostřed celého spektra jsou takové formy evidence odkazů na dostupné zdroje, které jsou označovány jako katalogy (či: vyhledávací služby katalogového typu). Od seznamů zdrojů se neliší ani tak principiálně, jako spíše rozsahem a zaměřením: jsou zaměřené mnohem více "do šířky", nejčastěji zcela univerzálně, a dokáží zmapovat mnohem více informací než seznamy zdrojů. Důležité je ale to, že podobně jako seznamy zdrojů počítají i katalogy s účastí člověka - s tím že to bude člověk, kdo zkontroluje každý nový odkaz, připraví či alespoň ověří základní údaje o něm, a hlavně jej zatřídí do celé hierarchie předmětových kategorií a podkategorií, se kterými katalog pracuje. Právě zde je zřejmě nejpodstatnější rys katalogů - hierarchická soustava kategorií a podkategorií vede na existenci nabídkových stránek, kterými uživatelé mohou podle vlastního uvážení procházet a něco konkrétního hledat, či se pouze volně inspirovat. Pokud jde o počet odkazů v největších katalozích, resp. o počet "zmapovaných" zdrojů, pohybuje se obvykle v desítkách tisíc odkazů, výjimečně může dosáhnout i řádu stovky tisíc.

Ještě větší objemy dat dokáží obsáhnout takové formy evidence zdrojů, které se nejčastěji označují jako vyhledávací služby databázového typu. Přívlastek "databázového typu" má zdůraznit skutečnost, že zde již není možná žádná forma lidské práce či jiné účasti na třídění a katalogizaci odkazů na dostupné zdroje - ty musí být shromažďovány automaticky, a stejně tak automaticky a bez účasti člověka musí být "uskladněny", zanesením do vhodné databáze. Jediným způsobem, jak se k takto nashromážděným databázím dostat, je využít vyhledávací schopnosti příslušné databáze, a položit jí vhodný vyhledávací dotaz. Podstatné je to, že zde nevznikají žádné nabídky ani kategorie a podkategorie, kterými by se dalo procházet - všechno je doslova "na jedné hromadě" (pardon: v jedné databázi), a uživatelé se k tomu mohou dostat pouze skrz kladení vyhledávacích dotazů. Na druhé straně dosah vyhledávacích služeb databázového typu může být skutečně úctyhodný: jsou schopné si pamatovat obsah několika desítek milionů WWW stránek, a umožňují v nich vyhledávat na plnotextovém principu.

Konkrétními příklady seznamů zdrojů, katalogů i vyhledávacích služeb, jakož i principy jejich fungování a práce s nimi, se budeme podrobněji zabývat v dalších článcích této volné série.

Základní problém evidence zdrojů

Celou oblastí orientace a vyhledávání v Internetu se jako červená nit táhne jeden nepříjemný problém, kterým je neexistence "registrační povinnosti". Jde o to, že když se někdo rozhodne něco zveřejnit na Internetu (nebo zde zpřístupní nějakou novou službu, nový zdroj apod.), nemusí nikomu oznamovat že tak učinil. Je sice v jeho vlastním zájmu, aby to udělal, ale nikdo ho k tomu nemůže nutit. V Internetu však existuje mnoho různých katalogů a vyhledávacích služeb, takže i když bude mít zřizovatel nového zdroje zájem dát o sobě vědět co možná nejvíce, nemusí být schopen "obejít" úplně všechny subjekty, které informace o existujících zdrojích sbírají. Existují dokonce i specializované registrační služby, které nové zdroje zaregistrují u více katalogů a vyhledávacích služeb současně, ale ani tyto registrační služby nemohou být "úplné".

Výsledkem je dosti značná různorodost v obsahu jednotlivých katalogů a vyhledávacích služeb, umocněná dále skutečností, že každá z nich může fungovat trochu jiným způsobem. Pro uživatele z toho pak vyplývá jednoduchý, ale velmi důležitý závěr: je dobré nespoléhat se jen na jediný zdroj, ale je vhodné se obracet se stejným dotazem na více vyhledávacích služeb či prohledávat více katalogů a seznamů zdrojů, a z výsledků si pak vybrat to co se nejvíce hodí. O tom, jak hledat na různých místech co možná nejefektivněji, si také povíme v dalších článcích této série.

 

Seznamy zdrojů

Katalogy

Vyhledávací služby databázového typu

Obsahové zaměření

Monotematické

Univerzální

Univerzální

Nabídkové stránky s možností procházení

Ano

(jedna stránka nebo několik málo stránek)

Ano

(celá hierarchická struktura nabídkových stránek)

Ne

Možnost automatického vyhledávání v nashromážděných informacích

Ne

Ano

(jako doplněk/alternativa k brouzdání nabídkovými stránkami)

Ano

(jako jediný a hlavní způsob práce)

Počet evidovaných zdrojů (zmapovaných stránek)

Desítky, max stovky

Desítky tisíc, max. stovky tisíc

Desítky milionů