Vyšlo v týdeníku CHIPweek č. 10/96, 5. března 1996
Vytištěno z adresy: http://www.earchiv.cz/a96/a610k140.php3

Alta Vista

Dnes se podíváme podrobněji na zřejmě nejmladší vyhledávací službu, uvedenou do provozu teprve v polovině prosince loňského roku. Jmenuje se Alta Vista, provozuje ji firma Digital, a její možnosti a schopnosti jsou opravdu velmi zajímavé.

Vyhledávací služba Alta Vista je výsledkem výzkumného projektu firmy Digital, zahájeného v polovině loňského roku. Cílem tohoto projektu přitom bylo něco, co se na první pohled musí zdát jako naprostá a nerealizovatelná šílenost - snaha vytvořit fulltextový index celého Internetu. Jinými slovy snaha projít skutečně celý Internet a zejména všechny jeho WWW servery i s jejich kompletním obsahem, tzv. zaindexovat každé slovo které se zde vyskytuje, a následně umožnit uživatelům plnotextové (fulltextové) vyhledávání v celém Internetu. Vzhledem k velikosti dnešního Internetu a množství existujících WWW stránek takovýto záměr zcela jistě musí vzbuzovat nemalé pochybnosti - je vůbec reálné zpracovat tak obrovské množství výchozích dat, a následně uchovat získané údaje v takové formě, aby v nich bylo stále ještě možné rozumně vyhledávat? Je-li konečným cílem umožnit skutečně plnotextové vyhledávání, pak objem indexů a dalších nezbytných dat bude opravdu velmi a velmi velký!

Pravdou je, že výzkumný tým ve laboratořích laboratořích Digital-u ve známém Palo Altu v Kalifornii mohl nasadit do boje opravdu silné zbraně, založené na výkonných 64-bitových procesorech Alpha, Představte si například počítač se 6 GB operační paměti (ano, čtete dobře, šesti giga-byty), a hned deseti procesory Alpha - jde prý o nejvýkonnější počítač, jaký kdy firma Digital postavila. A ten je přitom jen jedním z několika strojů, které ve vzájemné spolupráci celou službu Alta Vista realizují - má na starosti vlastní vyhledávání v databázi indexů. Ta má prozatím velikost jen asi 30 GB, ale vyhledávání v ní prý bývá kratší než jednu sekundu. O tom se ostatně můžete přesvědčit sami, když službě Alta Vista pošlete svůj dotaz. Ten však nejprve přijme a předzpracuje jiný stroj, poněkud „skromnější" konfigurace, jen se 256 MB operační paměti a speciálně vyvinutým WWW serverem.

Celá vyhledávací služba Alta Vista byla experimentálně spuštěna na podzim loňského roku (tedy v rekordně krátkém čase, neboť celý projekt byl zahájen teprve v polovině roku). Po dvou měsících interního testování byl vytvořen nový soubor indexů, pokrývající přes 16 milionů WWW stránek. No a přesně 15 prosince 1995 pak byla Alta Vista zpřístupněna široké internetové veřejnosti, a okamžitě se stala velkým šlágrem. Její důkladné „mapování" celého Internetu, spočívají v postupném indexování dalších a dalších WWW stránek a organizaci těchto indexů, však pokračuje nadále (a nejspíše bude trvalým procesem, i vzhledem k možnostem změn jednotlivých stránek).

O tom, jak velkou část celého Internetu se službě Alta Vista podařilo zpracovat do doby psaní tohoto článku, se můžete sami dočíst na domovské stránce, kterou vidíte na dnešním prvním obrázku . Ačkoli to ještě nemůže být opravdu celý rozsáhlý Internet, i oněch 21 milionů nalezených a zpracovaných stránek (se zaindexováním 10 miliard slov) je opravdu úctyhodné číslo. Povšimněte si ale i skutečnosti, že Alta Vista se snaží indexovat a následně zpřístupnit pro plnotextové vyhledávání i celý USENET, s jeho diskusními skupinami síťových news.

Ukažme si nyní, jak využít vyhledávacích schopností služby Alta Vista. Na dnešním druhém obrázku [GIF2] vidíte nejjednodušší formu dotazu, zadaného prostřednictvím formuláře pro tzv. Simple Query (tato možnost je nabízena jako implicitní). Zadat můžete klíčová slova, pro jejich spojení však nesmíte využívat obvyklé logické operátory (a Alta Vista pak hledá alespoň některé ze zadaných klíčových slov). Můžete si ale vybrat, zda chcete prohledávat WWW stránky, nebo síťové news (diskusní skupiny Usenetu). Také si můžete předepsat míru podrobnosti výsledků - zda mají být co nejstručnější, zda mají být středně podrobné, či ještě podrobnější. Na dnešním druhém obrázku [GIF2] vidíte výsledky se střední mírou podrobnosti, zatímco na třetím [GIF3] jsou výsledky tzv., kompaktní, s minimem podrobností.

Na čtvrtém obrázku [GIF4] pak vidíte výsledky vyhledání v diskusních skupinách USENETu. Tyto výsledky vám jsou předkládány v takové formě, díky které si můžete „vyzvednout" plné texty zvolených příspěvků přímo od Alta Visty, nebo můžete použít pouze odkaz na ně, a vyžádat si je od vámi používaného serveru síťových news. Domyšleno do konce, je Alta Vista vlastně svým způsobem i čtečkou síťových news.

Skutečnou sílu Alta Visty jako vyhledávacího nástroje však oceníte až tehdy, když se vydáte cestou tzv. „pokročilých dotazů" (Advanced Query). Teprve zde totiž máte možnost formulovat složitější dotazy a plně využít plnotextového vyhledávání, které Alta Vista nabízí. K dispozici zde máte kromě obvyklých logických operátorů AND, OR a NOT i méně obvyklý operátor NEAR (požadující výskyt „někde v blízkosti"). Ještě zajímavější možnosti se ale před vámi odekryjí v okamžiku, kdy si uvědomíte že Alta Vista indexuje dokonce i všechny odkazy URL v rámci jednotlivých stránek (tedy například odkazy, které z dané stránky směřují směrem ven). Díky tomu, a díky plnotextovému charakteru této vyhledávací služby, je pak možné klást Alta Vistě i takové dotazy, na které jsou ostatní vyhledávací služby jednoduše krátké. Ukažme si to na konkrétním příkladu.

Zajímá vás, jak moc je ve světě WWW známá a oblíbená vaše domovská stránka, nebo celý váš WWW server? Směrodatným ukazatelem by zde mohl být počet odkazů na vaši stránku či WWW server jako celek, vedoucí z jiných WWW serverů. Ovšem jak něco takového zjistit? S Alta Vistou to jde! Jednoduše jí položíte následující dotaz: najdi všechny stránky obsahující odkazy na můj server či stránku, ale ne takové stránky, které jsou umístěny přímo na mém serveru. Příklad konkrétní formulace tohoto dotazu, v notaci používané Alta Vistou, vidíte na dnešním pátém obrázku [GIF5] - položka link:"//www.dcit.cz" požaduje výskyt řetězce //www.dcit.cz v URL odkazech směřujících „ven" z hledané stránky, zatímco položka url:"//www.dcit.cz" (s operátorem NOT) požaduje, aby se nejednalo o stránku která má sama ve své vlastní URL adrese zmíněný řetězec (tj. stránku, která není umístěna na serveru www.dcit.cz). Výsledek pak vidíte na dnešním pátém obrázku [GIF5]. Všimněte si na něm ještě další možnosti volby podrobnosti výsledků - zde jsem si nechal vypsat pouze počet nalezených výsledků (tedy počet odkazů z vnějšku na server www.dcit.cz).

Možnosti Alta Visty ovšem zmíněným příkladem zdaleka nekončí. Snadnou úpravou dotazu z pátého obrázku [GIF5] jsem si například nechal zjistit, kolik odkazů vede na zmíněný WWW server ze Slovenska (z domény .sk). Stejně by se samozřejmě dalo postupovat pro kteroukoli jinou doménu či skupinu domén. Takže chcete-li si udělat statistiku o tom, kdo a jak často se na vaše stránky odkazuje, s Alta Vistou to jde snadno. Nezapomínejte ale, že jde ve skutečnosti jen o vyhledávání v rámci stránek, které Alta Vista „zná". Těch je sice hodně a stále jich přibývá, ale zcela jistě existují i takové, o kterých ještě Alta Vista „neví". Prozatím?


Seznam obrázků:

  1. Domovská stránka vyhledávací služby Alta Vista
  2. Příklad jednoduchého dotazu, se střední podrobností výsledků
  3. Příklad jednoduchého dotazu, s nejmenší mírou podrobnosti výsledků
  4. Příklad dotazu do Usenetu (síťových news)
  5. Příklad pokročilejšího (advanced) dotazu (viz text)
  6. Další příklad pokročilejšího dotazu (viz text)
  7. Jak se zviditelnit
  8. Nabídka kategorií