Vyšlo v časopise Telekomunikační revue, č. 3/98
Vytištěno z adresy: http://www.earchiv.cz/arevue/a803r200.php3

Internet jako informační zdroj

Globální počítačová síť Internet již před delším časem přestala být čistě akademickou záležitostí, a plně se otevřela komerčnímu využití. Pro uživatele z komerční sféry přitom není až tak zajímavé jak Internet funguje, a jaké technologie používá - pro ně je důležité spíše to, co jim Internet může nabídnout a jak a k čemu jej mohou využít. I zde je přitom široká škála možností, od pouhé komunikace se zákazníky a partnery prostřednictvím Internetu, až třeba po přímé podnikání po Internetu a na Internetu. Někde uprostřed tohoto spektra možností je i využití Internetu v roli zdroje informací - rychlého, aktuálního, obsahově nesmírně bohatého, ale také nepříliš přehledného a věcně utříděného.

Pro správné pochopení role Internetu jako informačního zdroje, a hlavně pro správné pochopení různých úskalí získávání i publikování informací na Internetu, je nutné nejprve vyjít ze samotné podstaty Internetu a způsobu jeho fungování. Předně je třeba si uvědomit, že Internet jako takový sám o sobě není žádným informačním zdrojem, neboli že sám žádné informace neposkytuje, podobně jako třeba veřejná telefonní síť - obě sítě jsou v zásadě jen přenosovými kanály, a mohou pouze prostředkovávat komunikaci mezi někým, kdo informace poskytuje, a někým kdo je "konzumuje". Pro dostupnost jakýchkoli informací na Internetu je tedy nezbytné, aby je někdo na Internetu "vystavil", neboli aby zřídil vhodný informační zdroj (informační server), připojil jej k Internetu, a tím umožnil potenciálním zájemcům o tyto informace, aby se k nim prostřednictvím Internetu dostali. Již toto jednoduché principiální schéma však nutně vyvolává celou řadu otázek, na které by měli znát odpovědi jak potenciální "konzumenti" informací, tak i potenciální "producenti" informací.

Například:

  • Existuje v Internetu nějaké "povolovací řízení"? Neboli: chci-li nějaké informace po Internetu zpřístupnit, kdo mi to povolí či schválí?
  • Existuje v Internetu nějaká "oznamovací povinnost"? Neboli: když nějaké informace zpřístupním, komu to mám nahlásit?
  • Existuje v Internetu nějaká centrální evidence informací, něco jako telefonní seznam s přehledem všech účastníků?
  • Jak mám postupovat, když hledám nějakou informaci, kam se mám obrátit a jakým způsobem mám postupovat?

Vlastnické vztahy k Internetu

Chceme-li hledat odpovědi na výše uvedené principiální otázky, je vhodné začít od vlastnických vztahů k Internetu, protože od nich je odvozeno mnoho významných důsledků. Tedy: dnešní Internet je jednou obrovskou soustavou vzájemně propojených počítačových sítí, které všechny mají své individuální vlastníky. Každá z těchto dílčích sítí je typicky sama o sobě opět soustavou vzájemně propojených sítí, neboli toho, čemu se říká "internet" (s malým počátečním "i"). Takovýchto internetů tedy jsou po světě tisíce, všechny s konkrétními vlastníky, a svým propojením dohromady tvoří jeden jediný, celosvětový Internet (nyní s velkým "I", protože je to jeho vlastní jméno). Tento celosvětový Internet jako celek ale již nemá žádného jednotlivého vlastníka, je ve své podstatě jen dohodou mezi individuálními vlastníky jednotlivých dílčích sítí o tom, že se mezi sebou propojí.

Neexistuje-li jednotlivý vlastník Internetu, pak neexistuje žádný "ředitel Internetu", a dokonce ani žádná "firma Internet", která by z titulu svého vlastnictvím mohla rozhodovat o tom, co a jak se v Internetu má či nemá stát, jak mají být řešeny případné spory či nejasnosti, jaká technická, organizační i jiná řešení mají být zvolena, či jaký směr dalšího vývoje má být nastoupen. V dobách akademické minulosti Internetu, kdy tento sloužil výhradně akademické komunitě, se rozhodovalo na principu všeobecného konsensu zainteresovaných stran. Dodnes lidé nepřišli na nic lepšího, a tak se i dnes musí hledat potřebný konsensus zainteresovaných stran, které jako vzájemně si konkurující subjekty mohou mít i diametrálně odlišné zájmy. Je jistě otázkou, zda takovýto dosti živelný model řízení Internetu bude i do budoucna udržitelný, a zda například nedojde na snahy podřídit Internet nadnárodním organizacím typu OSN či Evropské Unie. Mnozí odborníci však poukazují na to, že Internet se stal tím čím je dnes právě díky tomu, že nebyl nikým direktivně řízen, a že jeho svázání byrokratickým aparátem by vedlo k jeho brzké záhubě.

Neexistuje-li dnes jednotlivý vlastník Internetu a tento je ve své podstatě pouze dohodou mezi vlastníky jednotlivých dílčích sítí, co potom znamená "připojit se k Internetu"? Znamená to vybrat si některého z provozovatelů dílčích sítí a připojit se k jeho dílčí síti. Vzhledem k propojení této dílčí sítě s ostatními sítěmi to pak znamená, že zákazník získá přístup i do ostatních dílčích sítí, neboli do toho, čemu se dohromady říká Internet. Přitom provozovatelé dílčích sítí jsou typicky subjekty, které své sítě provozují za právě naznačeným účelem a na komerční bázi, neboli proto, aby svým zákazníkům mohli nabídnout připojení a přístup nejen ke své dílčí síti, ale jejím prostřednictvím i k dalším částem globálního Internetu. Také proto se jim říká "poskytovatelé připojení k Internetu" či "poskytovatelé přístupu k Internetu", či zkráceně "poskytovatelé Internetu", anglicky "Internet providers".

Neexistence "povolovacího řízení"

Kvůli neexistenci jednotlivého vlastníka Internetu jako celku neexistuje ani žádné "povolovací řízení" pro využití Internetu - již jen proto, že není nikdo kdo by z titulu vlastníka mohl stanovit závazná pravidla pro celý Internet. To samozřejmě neznamená, že si svá pravidla nemohou stanovovat jednotliví poskytovatelé připojení (Internet providers). Oni tak skutečně činí, v rámci smluv které uzavírají se svými zákazníky, ale tato pravidla se typicky týkají pouze technických aspektů připojení, a nikoli třeba informačního obsahu, který zákazníci providerů budou chtít umisťovat na Internet. Faktem také je, že není v zájmu samotných providerů, aby své zákazníky svazovali příliš velkými zákazy a omezeními, protože tím by o své zákazníky nejspíše přišli (a tito by si vybrali benevolentnějšího providera). Na druhé straně je faktem i to, že poskytovatel připojení nemá z technických důvodů šanci monitorovat všechno, co jeho zákazník "pouští" do Internetu. Teoreticky by to sice možné bylo, ale v praxi by to bylo neúnosně nákladné a pomalé. Nehledě již na samotný fakt, že by se vlastně jednalo o cenzuru.

Je potřeba si uvědomit, že "odpovědnost za obsah" je nesmírně důležitou otázkou, na kterou dodnes neexistuje jednoznačná odpověď. Objevily se již první pokusy činit univerzálně odpovědnými právě poskytovatele připojení, neboli providery, a to odpovědnými za "činy" jejich zákazníků (možná i proto, že poskytovatelů připojení není zase až tak mnoho a jsou to jednoznačně definované právní subjekty, zatímco jejich zákazníků je velmi mnoho, a jejich právní statut může být mnohem vágnější). Naštěstí se ale tyto první pokusy neujaly a dnes spíše převládá názor, že za obsah by měl být odpovědný skutečný vystavovatel, a nikoli poskytovatel připojení (tedy stejný princip, podle kterého je např. za anonymní výhružky po telefonu činěn odpovědným jejich autor, a ne provozovatel telefonní sítě).

Problém nevhodných informací

Neexistence "povolovacího řízení", a s ní i neexistence jakékoli cenzury na Internetu znamená, že zde panuje skutečná demokracie - v tom smyslu, že nikomu není bráněno v tom, aby jeho hlas, postoje, názory a představy byly slyšeny. To je jistě dobře. Současně s tím tento fakt ale způsobuje i mnohé problémy. Skutečnost, že kdokoli může umístit na Internetu jakékoli informace, je velmi snadno zneužitelná. V jejím důsledku se totiž mohou na Internet dostat i takové informace, které nejsou pravdivé, které nejsou korektní, či jsou dokonce úmyslně lživé, hanlivé, záměrně zkreslené apod.

Předejít této možnosti by nutně znamenalo zavedené nějaké formy "povolovacího řízení" resp. cenzury, a to není žádoucí (a ani technicky možné). Jedinou možností jak kontrovat existenci "nevhodných" informací pak je uvědomovat si jejich existenci a počítat s ní, neboli brát zřetel na fakt, že zdaleka ne všechno, co je dostupné na Internetu, je nutně pravdivé, přesné či jinak korektní. Je to ostatně podobná situace jako s informacemi například v novinách a časopisech, které také nemusí být vždy zcela pravdivé a korektní.

Oproti jiným médiím, typu rozhlasu, televize či tisku má však Internet jednu specifickou odlišnost: zatímco pořízení vlastní televizní či rozhlasové stanice, nebo vlastního časopisu či novin je poměrně nákladnou a organizačně i jinak složitou záležitostí, publikování informací na Internetu je neskonale snadnější, lacinější a rychlejší. Publikovat své informace prostřednictvím Internetu může dnes skutečně každý, zatímco pro ostatní média to zdaleka neplatí a nejspíše nikdy platit nebude. Snadnost zneužití Internetu jedinci s ne zcela korektními úmysly je proto výrazně větší než u ostatních médií, které jednak fungují na jiném principu (mají odpovědné šéfredaktory atd.), a samy si hlídají své vlastní renomé.

S možnou existencí "nekorektních" informací pak ale nutně souvisí i otázka jak je rozpoznat a odlišit od informací "korektních" (pravdivých, směrodatných, nezaujatých atd.). Zde neexistuje jednoznačná odpověď, podobně jako neexistuje ani u jiných médií typu novin a časopisů. Jediným vodítkem snad může být autorita toho, kdo informace prezentuje: stejně jako budou existovat bulvární tištěné tituly a tituly seriózní, existují i na Internetu seriózní informační zdroje i zdroje spíše bulvární či vysloveně neseriózní. Uživatelé Internetu by se vždy měli pozorně dívat, odkud pochází konkrétní informace a kdo jim ji prezentuje, a podle věrohodnosti těchto subjektů současně usuzovat i na věrohodnost jimi předkládaných informací.

Neexistence "oznamovací povinnosti"

Dalším důsledkem vlastnických vztahů k Internetu a neexistence "povolovacího řízení" je i fakt, že nikdo nemá povinnost komukoli oznamovat zpřístupnění nových zdrojů a služeb na Internetu. Tedy nejen že se nemusí nikoho ptát, jestli smí nějaký nový informační zdroj na Internetu zřídit, ale dokonce nemusí ani komukoli oznamovat, že tak učinil. U takových zdrojů, které jsou svým určením veřejné, je sice v zájmu jejich provozovatele, aby se o nich co možná nejvíce vědělo. Na druhé straně ale neexistuje žádná závazná a centrální evidence toho, co je na Internetu dostupné - takové evidence, ve které by bylo podchyceno všechno to, co skutečně dostupné je, a která by mohla poskytnout směrodatnou odpověď na otázku, zda určitá informace, služba či něco jiného na Internetu existuje či nikoli.

Místo takovéto "absolutní" evidence centrálního charakteru existuje celá řada konkrétních pokusů evidovat dostupné zdroje, lišících se mechanismem svého fungování, hloubkou i šířkou svého "záběru", i mnoha dalšími aspekty. Tedy mnoho dílčích evidencí, z nichž každá "ví něco, ale ne všechno". Pro uživatele Internetu, kteří v této globální síti něco konkrétního hledají, pak z tohoto faktu vyplývá následující důležitý závěr: pokud v rámci jedné evidence (jedné vyhledávací služby, jednoho katalogu, jednoho seznamu zdrojů apod.) nenajdou to, co hledají, ještě to zdaleka neznamená, že něco takového neexistuje. Místo toho je vhodné zkusit další možnosti a mít přitom na paměti, že každá z nich může být optimalizovaná pro určitý okruh hledaných informací, a méně vhodná či zcela nevhodná pro hledání něčeho jiného. V praxi tedy existují například tematicky zaměřené seznamy zdrojů na Internetu, orientované kupř. na právnické zdroje, nebo obecnější vyhledávací služby zaměřené na vyhledávání lidí (tj. konkrétních uživatelů a jejich adres). Stejně tak ale existují i univerzálně zaměřené služby, typu katalogů a vyhledávacích služeb databázového typu, o kterých se ještě zmíníme podrobněji.

Neexistence "katalogizační povinnosti"

Nejprve se ale zastavme u jednoho další aspektu zpřístupnění informací prostřednictvím Internetu, který také komplikuje vyhledávání informací v této nesmírně bohaté informační studnici. Jde o problém nízké míry utříděnosti informací, dostupných po Internetu.

Jde v jistém smyslu o další důsledek "otevřenosti" Internetu: ten, kdo zveřejňuje nějaké informace, se nemusí ptát zda tak smí učinit, nemusí nikomu oznamovat že tak učinil, ale kromě toho se také nemusí nikoho ptát JAK tak má učinit, neboli jakým způsobem má své informace strukturovat, uspořádat, setřídit či jinak zorganizovat. Také v tomto ohledu neexistuje v prostředí Internetu žádná závazná norma či předpis, který by bylo třeba dodržovat, a dokonce ani jednotný návod, který by bylo možné alespoň doporučit těm, kteří by jej sami a z vlastní iniciativy rádi dodrželi.

V tomto ohledu se Internet výrazně odlišuje například od klasických knihoven, které také nabízí informace, ale v mnohem uspořádanější podobě - mají své abecední, věcné i jiné rejstříky, katalogy, přehledy, ale také své knihovníky, starající se o systematické obohacování fondů knihovny, s celou vědou o knihovnictví atd. Naproti tomu v Internetu je typické, že každý uspořádá své informace takovým způsobem, jaký uzná za vhodné a jaký je v jeho silách.

Praktickým důsledkem neexistence "katalogizační povinnosti", či spíše jednotné představy o způsobu uspořádání informací na Internetu, je pak skutečnost že utříděnost a organizovanost informací na Internetu je značně různorodá, a ve svém průměru je zcela jistě hluboko pod standardem, představovaným klasickými knihovnami. To samozřejmě výrazně ztěžuje jakékoli systematické hledání.

Problém kvality a kvantity informací

Další výraznou odlišností Internetu od klasických knihoven je jeho obrovitost, resp. obrovský objem informací, které jsou po Internetu dostupné. To opět souvisí s tím, jak snadné, laciné a rychlé je zpřístupnit informace po Internetu. Na druhé straně se ale tato snadnost projevuje negativně i v tom, že se na Internet dostávají i takové informace, které nejsou příliš důležité, významné, přínosné - obecně tolik "kvalitní".

Faktem je, že kvantita informací dostupných na Internetu je velmi velká, ale jejich kvalita je relativně nízká. To pak samozřejmě dále ztěžuje jakékoli vyhledávání, zvláště pro uživatele, kteří nejsou sami odborníky v oblasti ze které hledají určitou konkrétní informaci, a nedokáží dostatečně snadno a rychle odlišit skutečně kvalitní a relevantní informace o těch méně kvalitních, kterých bývá výrazně více.

Problém kvality versus kvantity informací na Internetu se snaží řešit i jeden zajímavý trend, který je v poslední době čím dál tím zřetelnější (a také vcelku logický): jde o přechod na placený způsob přístupu k informacím. Až dosud jsme totiž mlčky předpokládali, že informace jsou na Internetu zpřístupňovány pro uživatele zadarmo. Pak je ale vcelku logické, že jejich vystavovatel nebude mít příliš velkou motivaci k tomu, aby je významněji uspořádal, setřídil, či jinak zvýšil míru jejich utříděnosti. Takovouto motivaci lze očekávat až tam, kde vystavovatel má nějaký zpětný přínos z toho, že konzumenti jeho informace skutečně spotřebovávají. No a to nastává zejména tam, kde uživatelé za "zkonzumované" informace platí, neboli u placených služeb.

Možné přístupy k vyhledávání na Internetu

Vezmeme-li v úvahu obrovské množství značně různorodých a různorodě utříděných informací na Internetu, jaké vůbec existují principiální možnosti pro fungování vyhledávácích mechanismů, které by uživatelům pomáhaly hledat a nacházet to co potřebují?

Možností existuje celá řada, a liší se právě v tom, jakým způsobem se vyrovnávají s problémem velkého objemu dostupných informací a jejich relativně nízkou utříděností a nízkou kvalitou. V prvním přiblížení by bylo možné říci, že tvoří celou škálu, a na jejích koncích jsou dva "krajní" přístupy:

  • přístup "hrubou silou", který se snaží obsáhnout co možná největší okruh informací, byť za cenu toho, že při tak velkém objemu nedokáže nijak posoudit jejich obsah a kvalitu
  • přístup "katalogizační", který se snaží co nejlépe posoudit jejich obsah a kvalitu, byť za cenu toho, že dokáže obsáhnout jen velmi malou část dostupných informací.

Pojďme si oba krajní přístupy rozebrat podrobněji.

Přístup "hrubou silou"

Pro přístup, označený přívlastkem "hrubou silou", je charakteristické to, že se snaží aplikovat takové mechanismy a postupy, které je možné plně zautomatizovat, neboli zajistit bez účasti člověka a jeho lidské práce. Díky výkonnosti dnešních informačních technologií je pak možné obsáhnout skutečně nesmírně velké objemy informací, ale není možné k nim přidat to, co je zatím výsadou člověka: jejich hodnocení, klasifikaci podle významu a obsahu, posouzení jejich relevantnosti atd. Ve skutečnosti tedy pracují spíše s daty než s informacemi, protože nedokáží posoudit jejich věcný obsah - dokáží poměrně efektivně vyhledat výskyt konkrétních slov ve velkých objemech textu, ale nedokáží posoudit, co tato slova znamenají, v jakém kontextu jsou psána, co vyjadřují, a jaká je jejich "vypovídací hodnota" atd.

Vyhledávací mechanismy, fungující na tomto principu, pak typicky prohledávají všechny WWW stránky prakticky v celém Internetu, a tzv. je indexují - mechanicky registrují výskyt každého jednotlivého slova na dané WWW stránce (bez toho že by zabývaly jeho obsahem a významem), a údaj o jeho výskytu si zanáší do své databáze. Když pak uživatel něco konkrétního hledá, musí se obrátit na tuto databázi a položit jí dotaz typu "na kterých stránkách se vyskytuje slovo X (nebo skupina slov XYZ atd.)"? Jako odpověď dostane odkazy na stránky, o kterých vyhledávací mechanismus ví, že se v nich hledané slovo (či slova) vyskytuje, načež uživatel si již sám musí "dojít" pro příslušnou stránku, tu si přečíst a sám posoudit, zda je tím co hledal.

Pro snazší pochopení je možné přirovnat tento způsob vyhledávání k jednoduchému plnotextovému vyhledávání, prováděnému v rozsahu (prakticky celého) Internetu.

Historicky první vyhledávací službou, fungující právě naznačeným způsobem a schopnou obsáhnout skutečně relevantní část celého Internetu, se stala vyhledávací služba AltaVista (na adrese: http://altavista.digital.com), fungující od prosince roku 1995. Další služby pak následovaly jejího příkladu (např. služba HotBot, http://www.hotbot.com), a časem se objevily i obdobně fungující služby s "lokálním" dosahem, mapující např. národní prostor (u nás např. služby Atlas, http://www.atlas.cz a Kompas, http://kompas.seznam.cz, mapující jen tuzemské WWW stránky).

Klíčem k úspěchu při práci s vyhledávacími službami tohoto typu je schopnost správně se jich zeptat, tedy schopnost formulovat správně dotaz kladený databázi, ve které si vyhledávací služba pamatuje, kde všude se vyskytuje které klíčové slovo. Problém je v tom, že při obrovském objemu zmapovaných informací bývá typická odpověď na typický dotaz taková, že hledané klíčové slovo se vyskytuje na několika desítkách či dokonce stovkách tisíc WWW stránek. To je pro tazatele bezcenná odpověď, protože tak velký objem WWW stránek nemá šanci sám projít a posoudit jejich relevantnost. Místo toho musí upřesnit svůj dotaz, tak aby výsledkem byl únosně malý počet nalezených stránek (například do deseti). A právě takovéto upřesňování dotazů, které skutečně není nijak triviální, je největším kamenem úrazu.

S trochou nadsázky by šlo říci, že čím "větší" je takováto vyhledávací služba, tím těžší je se jí správně zeptat - tak aby výsledkem odpovídal skutečným představám tazatele. S dalším růstem objemu dostupných informací, i s růstem "velikosti" takto fungujících vyhledávacích služeb, bude obtížnost jejich použití ještě dále růst.

Myšlenka katalogů

Na opačném konci celé škály vyhledávacích mechanismů jsou tzv. katalogy (či: vyhledávací služby katalogového typu). Jak již jejich název napovídá, a podobně jako nejrůznější "papírové" katalogy, pracují s určitým systémem hierarchicky uspořádaných tematických kategorií (či tříd, "přihrádek", "škatulek" apod.), do kterých se snaží zařazovat odkazy na jednotlivé informační zdroje, o jejichž existenci se dozvědí. Právě zde je zdroj jejich vysoké přidané hodnoty: někdo (člověk) totiž posoudí obsah a význam určitého informačního zdroje (typicky WWW stránky), a pak ji zařadí do jím zvolené předmětové kategorie (či několika kategorií).

Výsledkem je pak skutečný katalog, byť v elektronické Internetové podobě, kterým uživatelé mohou listovat - mohou procházet (brouzdat se) jeho systémem předmětových kategorií a zde si prohlížet odkazy na dostupné informační zdroje. To je výhodné zvláště v situaci, kdy uživatelé zcela přesně nevědí, co vlastně hledají - třeba něco z oblasti sportu, a tak nejprve navštíví kategorii "sport", poté se rozhodnou třeba její pro podkategorii "sport - lední hokej", a zde třeba pro další podkategorii "domovské stránky klubů extraligy", a takto pokračují, dokud nenajdou to co hledají, nebo dokud je nezaujme nějaký konkrétní odkaz, po kterém se vydají již přímo na příslušný informační zdroj. Takovýto "inspirační" způsob práce, spočívající v postupném procházení soustavou nabídek předmětových kategorií, by u vyhledávacích služeb databázového typu (popisovaných v předchozím odstavci) nebyl možný, zde totiž žádné nabídky nejsou (a místo toho je nutné položit explicitní dotaz, na který přijde konkrétní odpověď).

Snad nejznámějším příkladem vyhledávací služby katalogového typu je služba YAHOO (http://www.yahoo.com), katalogizující odkazy na informační zdroje po celém světě. U nás vznikla obdobně koncipovaná služba Seznam (http://www.seznam.cz], zaměřená výhradně na tuzemské zdroje, a časem se objevily i některé další české katalogy.

Obecnou nevýhodou všech katalogů je nutné zapojení lidského faktoru při zatřiďování odkazů do jednotlivých předmětových kategorií a podkategorií - právě zde je příčina toho, že katalogy nemohou obsáhnout příliš velké objemy informací. Zajímavý je ostatně i způsob, jakým se takovéto katalogy dozvídají o existenci nových zdrojů, které pak katalogizují: jednou možností je to, že provozovatelé katalogu si platí skupinu lidí, kteří se neustále brouzdají Internetem a objevují nové zdroje. V praxi se ale katalogy spoléhají spíše na to, že zřizovatelé nových zdrojů je sami upozorní na příslušné novinky. Jak jsme si ale již naznačili v úvodu, je to sice v bytostném zájmu zřizovatelů nových zdrojů, ale na druhé straně katalogů je hodně, zřizovatelé nových zdrojů nemusí o všech vědět atd. Důsledkem je to, co jsme si již mnohokráte naznačovali: žádný katalog, ani žádná jiná vyhledávací služba, nemá patent na úplnost. Když něco nenajdete v jednom katalogu či v jiné vyhledávací službě, ještě to neznamená, že to neexistuje - zkuste to hledat také jinde.