Vyšlo v týdeníku CHIPweek č. 7/96, 13. února 1996
Vytištěno z adresy: http://www.earchiv.cz/a96/a607k140.php3

Lycos

Dnes se začneme podrobněji seznamovat s jednotlivými vyhledávacími službami, které slouží pro vyhledávání v rámci World Wide Webu. Jako první jsem pro vás vybral službu Lycos. Podle klasifikace, zavedené v minulém dílu, patří Lycos mezi služby které nevytváří různě uspořádané seznamy, kterými by uživatel mohl sám procházet, a dostupné informace mu zpřístupňují pouze prostřednictvím vyhledávacích dotazů.

Vyhledávací služba Lycos má své kořeny na prestižní americké univerzitě Carnegie Mellon University, kde byla příslušná vyhledávací technologie původně vyvinuta. Dnes však tato služba funguje plně na komerční bázi, a jejím provozovatelem je společnost Lycos Inc. (založená v červnu 1995). Jisté vazby s univerzitou Carnegie Mellon samozřejmě existují i nadále (univerzita je minoritním vlastníkem společnosti s ručením omezeným, a je také zastoupena v její dozorčí radě), ale Lycos již dnes žije plně vlastním životem a „živí" se sám, na běžné komerční bázi. Pro uživatele Internetu je z obchodní strategie firmy Lycos Inc. jistě nejdůležitější to, že své vyhledávací služby nabízí zdarma, a hodlá tak činit i do budoucna - potřebné finanční zdroje získává z reklam a z prodeje licencí za svou vyhledávací technologii. Ta je zřejmě úspěšná, když si licenci zakoupila například i firma Microsoft, a používá ji ve své síti Microsoft Network.

V nepříliš dávné době prošla vyhledávací služba Lycos velkými změnami, které se uživatelům projevily zejména jiným uživatelským rozhraním. Ti z vás, kteří mají přístup k Internetu již delší dobu, možná pamatují že Lycos nabízel vyhledávání buď v tzv. velkém katalogu, nebo v katalogu malém. Většina uživatelů samozřejmě chtěla vyhledávat v katalogu velkém, a tak se provozovatelé rozhodli zavést vyhledávání v obou, a samotnou existenci dvou katalogů před uživateli zakrýt. Oba tyto katalogy však nadále existují, a na rozdílu mezi nimi se vám pokusím přiblížit podstatu mechanismu vyhledávání, který používá služba Lycos.

Lycos patří mezi vyhledávací služby, které sbírají svá data automaticky, bez jakékoli „ruční práce". Někdy se v této souvislosti hovoří také o tzv. robotech. V terminologii Lycosu je ale příslušný „sbírající" mechanismus označován jako spider (doslova „pavouk"). Ten se pravidelně (v podstatě trvale) vydává do světa, po všech internetových adresách které má k dispozici (přesněji po tzv. ukazatelích URL), a pamatuje si co zde našel. Výsledky se pak uchovávají v malém a velkém katalogu, ve kterém pak uživatelé mohou vyhledávat prostřednictvím svého uživatelského rozhraní (vidíte jej například na dnešním prvním [GIF1] a třetím obrázku [GIF3]). Tímto způsobem prý Lycos obsáhnul (k datu psaní tohoto článku) přes 10 milionů adres URL, což je podle provozovatele služby 91% celého Webu. Ať už je tento odhad přesný či nikoli, v každém případě je na těchto adresách dostupné obrovské množství informací, a ty rozhodně nelze zpracovat najednou. A právě zde se uplatňuje rozdíl mezi malým a velkým katalogem - ve velkém katalogu jsou zaneseny jen nejzákladnější informace o jednotlivých WWW stránkách, konkrétně jejich samotná adresa (odkaz URL), a pak už jen jejich titulek (title - to, co browsery zobrazují ve svém rámečku úplně nahoře, viz též minulý díl). Naproti tomu v tzv. malém katalogu jsou zaneseny takové stránky, o kterých již vyhledávací mechanismus Lycosu stačil získat podrobnější informace. Tyto podrobnější informace mají formu tzv. abstraktu, který si Lycos sám dělá z příslušné stránky. Abstrakt vychází z prvních dvaceti řádek stránky (nebo z prvních dvaceti procent textu, podle toho co je menší), a indexuje zde klíčová slova podle vlastního výběru (na základě technologie, kterou má provozovatel patentovánu). Kromě toho si Lycos všímá i odkazů na jiné stránky, které daná stránka obsahuje, a díky tomu pak může sledovat, jak často se na určitou konkrétní stránku odkazují jiné stránky - od četnosti odkazů odvozuje míru oblíbenosti jednotlivých stránek, a podle této oblíbenosti pak sestavuje svůj vlastní žebříček nejúspěšnějších internetových stránek (viz dnešní šestý obrázek [GIF6]).

Zajímavou otázkou jistě je, jak se Lycos dozví o adresách (ukazatelích), na které by si měl „dojít" pro další informace. Nejjednodušší je takovouto adresu vyhledávací službě Lycos explicitně sdělit, například prostřednictvím formuláře na dnešním sedmém obrázku [GIF7]. Stačí tímto způsobem tzv. zaregistrovat jen jednu stránku, například domovskou stránku vašeho WWW serveru, a „pavouk" Lycosu si už na svých toulkách sám najde další navazující stránky (ale může mu to jistou dobu trvat, než se k tomu dostane, takže rychlejší je explicitně zaregistrovat všechny relevantní stránky). Kromě toho lze „pavoukovi" Lycosu dokonce i zakázat určitou oblast konkrétního WWW serveru, kterou by neměl prohledávat (stačí do kořene adresářového stromu umístit vhodně strukturovaný popis takovéto oblasti). Samotný „pavouk" se kromě toho sám od sebe vyhne všem stránkám, které ve svých adresách (ukazatelích URL) obsahují otazník nebo vykřičník (protože pak je považuje za tzv. CGI skripty).

Uživatelé mají přístup k informacím, nasbíraným „pavoukem" Lycosu a uchovávaným v jeho databázích (v rámci malého i velkého katalogu), prostřednictví dotazovacího rozhraní které vidíte na dnešním prvním [GIF1] a třetím [GIF3] obrázku. V rámci svého dotazu můžete zadat jedno nebo několik klíčových slov (provozovatelé Lycosu přitom tvrdí, že podle dlouhodobých statistik tvoří dotazy s jediným klíčovým slovem až 93 procent všech dotazů). Dále si můžete předepsat (navolením položky v prvním menu pod „Search Options"), zda je požadována shoda s kterýmkoli (tj. jedním) klíčovým slovem, se dvěma, třemi atd., nebo se všemi zadanými klíčovými slovy. Není však implementováno tzv. booleovské vyhledávání, takže mezi klíčová slova nelze vkládat logické operátory a vytvářet tak například dotazy typu „Czech NOT Prague" (tedy dotaz na stránky obsahující „Czech", ale neobsahující „Prague"). Další parametr, kterým lze dospecifikovat uživatelský dotaz, je požadovaná míra shody (ještě v řádce Search Options). Tu lze nastavit v pěti stupních, od „volné" až po „dokonalou", a v zásadě je tím ovlivněno především to, od jakého čísleného vyjádření shody (od 0 do 1) se vám zobrazí nalezené výsledky. Kromě toho si můžete zadat maximální počet nalezených výsledků, které chcete zobrazit najednou, a také míru podrobnosti vypisovaných údajů o nalezených stránkách.

Na dnešním prvním obrázku [GIF1] vidíte dotaz, ve kterém jsem požadoval „blízkou" shodu (prostřední z pěti možností) se všemi zadanými klíčovými slovy, a chtěl jsem zobrazit standardní výsledky (tj. se střední mírou podrobnosti). Výsledek pak vidíte na dnešním druhém obrázku [GIF2]. Pak jsem vznesl jiný dotaz, ve kterém jsem požadoval o jeden stupínek vyšší shodu se všemi zadanými klíčovými slovy („silnou" shodu, strong match), a jen nejstručnější výsledky (summary results). Výsledek vidíte na čtvrtém obrázku [GIF4] - všimněte si, že kvůli požadavku na „silnou" shodu byly vypsány jen výsledky s koeficientem shody nad 0,9, zatímco v předchozím případě (obrázky 1 a 2) byly při „blízké" shodě vypisovány výsledky s koeficientem shody nad 0,7. Svůj dotaz z třetího obrázku [GIF3] jsem pak ještě upřesnil přidáním třetího klíčového slova, a výsledek vidíte na dnešním pátém obrázku [GIF5]. Na něm si také můžete všimnout, jak vypadá nejvyšší úroveň podrobnosti při výpisu nalezených stránek.

Jednou ze zajímavostí, na které jsem při podrobnějším zkoumání Lycosu narazil, byla nabídka členství (její formulář vidíte na dnešním osmém obrázku [GIF8]). Půjde zřejmě o jednu z aktivit, kterou se provozovatelé snaží přilákat pozornost uživatelů Internetu. Nejspíše mi pak budou posílat elektronickou poštou zprávy o tom, co je na jejich službě nového. Proč ne.

Další zajímavostí na stránkách Lycosu pak byly odkazy na WWW stránky firmy Point Communications (viz poslední dva obrázky [GIF9], [GIF10]). Ta se zabývá přesně tím, co Lycos nedělá - ručně připravuje seznamy zajímavých odkazů (URL) na nejrůznější WWW zdroje a třídí je podle různých kritérií. Jak se mi posléze podařilo zjistit, jde vlastně o odnož Lycosu (firma Point Communications je plně vlastněna firmou Lycos Inc.).


Seznam obrázků:

  1. Zadání dotazu, se střední mírou požadované shody se všemi zadanými klíčovými slovy a se střední podrobností výsledků
  2. Výsledek dotazu na obrázku č. 1
  3. Zadání dotazu, s druhou nejvyšší mírou požadované shody se všemi klíčovými slovy, s nejméně podrobným výpisem výsledků
  4. Výsledek dotazu na obrázku č. 3
  5. Výsledek upřesnění dotazu na obr. 3 (s přidáním dalšího klíčového slova, a s maximální podrobností výpisu výsledků)
  6. Nejúspěšnější stránky podle Lycosu
  7. Formulář pro registraci (nebo změnu registrace) URL u služby Lycos
  8. Staňte se členy Lycos-u!
  9. Nabídka seznamů od firmy Point Communications
  10. Podrobnější členění nabídek seznamů