Vyšlo v týdeníku CHIPweek č. 30/97, 12. srpna 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a730k140.php3

Nová AltaVista a čeština

O vyhledávací službě AltaVista jsme si poprvé povídali v březnu loňského roku (v CHIPweeku č. 10/96). Od té doby se u AltaVisty hodně změnilo - i v oblasti podpory našeho mateřského jazyka. Pojďme proto navštívit AltaVistu znovu.

Na nové AltaVistě upoutá především její nový image, přesněji nový design jejích formulářových stránek (viz první dnešní obrázek [GIF1,URL1]), i některá vylepšení na stránkách přinášejících výsledky. Začněme ale tím, co je pro naše tuzemské uživatele asi nejzajímavější: nově přidaná podpora češtiny při vyhledávání. V čem spočívá?

V tom, že AltaVista se při sběru dat (indexování nalezených stránek) snaží rozpoznat, v jakém jazyku jsou stránky psány. Zda například v angličtině, němčině, francouzštině, nebo třeba v češtině. Výsledek si pamatuje jako jeden z atributů zaindexované stránky, a následně pak dovoluje upřesňovat tímto atributem vyhledávací dotazy - tedy například požadovat stránky obsahující zadaná klíčová slova, ale pouze takové stránky, které jsou psány v češtině. Způsob, jakým se takto zúžené dotazy kladou, naznačuje dnešní první obrázek - v horní části žlutého formulářového pole si všimněte položky "Czech" (resp. věty: Search the Web for Documents in Czech", neboli "Prohledávej Web a hledej dokumenty v češtině"). Příslušný listbox nabízí kromě češtiny většinu světových jazyků, včetně například čínštiny, ale nenabízí například slovenštinu. Implicitní možností je samozřejmě vyhledávání "in any language", neboli v jakémkoli jazyku.

Praktický efekt zúžení vyhledávacího dotazu zadáním jazyka, ve kterém má být nalezená stránka napsána, můžete sami posoudit z dnešního druhého [GIF2] a třetího [GIF3] obrázku. Na druhém je výsledek požadující pouze české stránky (které se našly dvě), zatímco na třetím obrázku jsou požadovány anglicky psané stránky (a našlo se jich cca 1200). Na obou obrázcích si povšimněte údajů, uváděných na samém konci popisu každé nalezené stránky (černě a kurzívou): obsahují po řadě údaj o velikosti textové části stránky, datum kdy byl obsah stránky indexován, a konečně i údaj o jazyku, ve kterém je stránka psána.

AltaVista samozřejmě musí používat k rozpoznávání češtiny i ostatních jazyků nějakou heuristiku, a ta nemusí být absolutně spolehlivá. Když jsem se snažil vyzkoušet její přesnost, právě pokud jde o rozpoznávání češtiny, nechal jsem AltaVistu hledat v mém archivu, ze kterého má naindexováno několik tisíc stránek. V rozpoznávání jazyka se spletla pouze v jednom jediném případě, a vůbec jí nevadily čtyři různé způsoby kódování české diakritiky. Pro jistotu jsem ještě vyzkoušel stejný dotaz jako na druhém a třetím obrázku, ale tentokrát vázaný nikoli na jazyk, ale na výskyt stránky v doméně .cz (přesněji: na výskyt řetězce ".cz" v URL adrese stránky). Výsledkem (viz čtvrtý obrázek [GIF4]) bylo 23 dokumentů, 21 psaných v angličtině, a zbývající dva v češtině (stejné jako na druhém obrázku).

Dalším vylepšením AltaVisty je možnost "zpřesnění" dotazu volbou "refine". Jde vlastně o vylepšenou variantu mechanismu, který AltaVista již nějakou dobu nabízela - ze všech nalezených stránek, které vyhovují zadanému dotazu (a kterých může být mnohem více, než kolik by uživatel dokázal sám prohlédnout), sestaví AltaVista statistiku, a tu nabídne buď v tabulkové podobě (viz šestý obrázek [GIF6]), nebo v podobě grafické (viz osmý obrázek [GIF8]). Obě varianty přitom nabízí skupiny slov, které se v nalezených dokumentech nabízí s určitou četností, a uživatel může velmi snadným způsobem upřesnit svůj dotaz požadavkem, aby slova z jednotlivých skupin byla či naopak nebyla obsažena v novém, upřesněném dotazu. Jediným drobným zádrhelem byla skutečnost, že grafická forma "zpřesnění" je realizována appletem, který v prostředí browseru NS Navigator systematicky havaroval (zatímco v prostředí Internet Exploreru pracoval bez problémů).

Za zmínku jistě stojí i šikovné vylepšení způsobu, jakým jsou prezentovány jednotlivé nalezené odkazy. U každého z nich si povšimněte malého symbolu dvou za sebou řazených oken před poslední řádkou s URL odkazem na nalezenou stránku - tento symbol je odkazem na tu samou (nalezenou) stránku, ale jeho aktivování otevře nové okno browseru a zmíněnou stránku načte do tohoto nového okna - tak aby uživatel mohl pokračovat v prohlížení a dalším zpracování původních výsledků. Jednoduché, ale hodně užitečné.

Velmi důležitou změnou je i možnost uživatelské konfigurace nové AltaVisty. Umožňuje uživatelům stanovit si, v jakém jazyku (či jazycích) chtějí vyhledávat implicitně (tj. pokud explicitně neřeknou jinak), a také si např. stanovit, zda jim má být implicitně nabízena grafická nebo tabulková forma "zpřesňování". Příklad konfiguračního formuláře vidíte na osmém obrázku [GIF8](z něj je také patrná konkrétní nabídka podporovaných jazyků).

Příště si ukážeme ještě další způsob, jakým AltaVista vychází vstříc naší mateřštině.


Seznam obrázků:

  1. Nový image AltaVisty
  2. Výsledek dotazu na česky psané stránky
  3. Výsledek dotazu na anglicky psané stránky
  4. Výsledek dotazu na stránky nacházející se v doméně .cz
  5. Tabulkový tvar nabídky pro zpřesnění dotazu
  6. Výsledek zpřesněného dotazu
  7. Grafický tvar nabídky pro zpřesnění dotazu
  8. Formulář pro uživatelskou konfiguraci AltaVisty