Vyšlo v týdeníku CHIPweek č. 27/97, 1. července 1997
Vytištěno z adresy: http://www.earchiv.cz/a97/a727k140.php3

Search CZ

V dnešních Toulkách bych vám rád představil další skupinu vyhledávacích služeb, tentokráte v podání našeho SPT Telecomu. Jde přitom o služby, které se v mnoha aspektech odlišují od obdobně koncipovaných služeb, které v našem tuzemském Internetu provozují jiné subjekty.

Začněme nejprve tím, jak se k vyhledávacím službám Telecomu dostat: nejpohodlnějším způsobem je projít přes domovskou stránku služby Internet On Line, kterou vidíte na dnešním prvním obrázku [GIF1,URL1]. V pravém spodním rohu zde najdete i nabídku vyhledávacích služeb, příslušné odkazy (v formě ikony i textu) jsou nadepsány ryze českým "Search" (zřejmě proto, že tyto vyhledávací služby nesou jméno SearchCZ). Pokud by jste však zadávali URL odkaz na tyto vyhledávací služby sami, nezapomeňte za symbolickým doménovým jménem serveru searchcz.telecom.cz uvést (za dvojtečkou) magické číslo 8000. Jde o číslo tzv. portu, na kterém je příslušný WWW server ochoten se s vámi bavit - obvykle se k tomuto účelu používá port č. 80, a jeho číslo pak není nutné explicitně uvádět, protože příslušné programy si jej automaticky domyslí. Zde byl z nějakého (jistě vážného) důvodu použit jiný, nestandardní port, a proto musí být explicitně uváděn. Příslušná URL adresa tedy zní http://searchcz.telecom.cz:8000/.

Domovskou stránku vyhledávacích služeb SearchCZ vidíte na dnešním druhém obrázku [GIF2,URL2]. Z nabídky v levém (modrém) sloupečku vyplývá, že je zde nabízeno především plnotextové vyhledávání, a pak také katalog, neboli vyhledávací služba katalogového typu (tedy podobná skladba služeb jakou představuje Atlas a jeho katalog, nebo jako Kompas a Seznam, viz minulé díly Toulek). Vyhledává se opět pouze v českém Internetu, kterým se míní prostor v doméně .cz (což ale není zcela přesné vymezení "českého" Internetu, protože některé firmy i organizace již mají své subdomény pod jinými doménami nejvyšší úrovně).

Plnotextové vyhledávání, které služba SearchCZ nabízí, má mnoho vlastností které ostatní služby obdobného typu nemají. Příkladem vlastností šitých na míru naší mateřštině je avizovaná schopnost vygenerovat k zadaným klíčovým slovům i odvozené gramatické tvary (např. milovat, milovati, miluji, miluješ, milujeme, miloval, milovala, milovali, milovaný, milovaná, milovaného, milování, ...), a ty pak použít pro faktické vyhledávání (viz volba "Libovolný z tvarů slov" na druhém a čtvrtém obrázku, kterou se tato funkce zapíná, resp. vypíná). Podle nápovědy pak SearchCZ zvládá dokonce i nepravidelné tvary typu "hnát-žene" apod. Pokud tato možnost funguje skutečně tak jak má a jak je popisována, pak klobouk dolů, neboť jde o něco opravdu unikátního (a po realizační stránce i hodně těžkého).

S problematikou češtiny pak souvisí i specifický způsob přístupu služby SearchCZ ke stránkám s různým kódováním. Vyhledávací služba se snaží sama rozpoznat stejné stránky v různém kódování, a pokud se jí to podaří, sama si uchovává nalezenou stránku pouze v jediném exempláři (v kódování pro MS Windows, tj. indexuje tuto jazykovou variantu). Kromě toho si ale uchovává nalezené stránky i ve verzi bez diakritiky, protože vychází z předpokladu, že vyhledávání s diakritikou a vyhledávání bez diakritiky jsou natolik odlišné záležitosti, že není možné je realizovat s jedinou sadou dat (resp. indexů). V praxi se to projevuje skutečností, že SearchCZ vám jeden dotaz zodpovídá dvakrát: jednou hledá vámi zadaná klíčová slova (i s diakritikou) v dokumentech s háčky a s čárkami, a podruhé hledá "odčeštěný" dotaz v dokumentech bez diakritiky. Můžete si toho povšimnout i na dnešním třetím obrázku [GIF3], kde je v záhlaví uvedený počet odpovědi hledaných v dokumentech s diakritikou a bez diakritiky. S diakritikou jsou přitom nalezené stránky uváděny vždy jen jednou, s odkazy na verze odpovídající tomu kódování, které používá dotazující se klient.

S českou diakritikou pak souvisí i další zajímavost služby SearchCZ: pokud zadáte hledaná klíčová slova bez diakritiky (a zaškrtnete volbu "Doplnit diakritiku, viz druhý a čtvrtý obrázek), SearchCZ si háčky a čárky doplní sám! Na první pohled to působí poněkud nesmyslně, ale po zralejší úvaze se objeví i zajímavé přednosti - například pro uživatele, kteří ze svých počítačů nejsou schopni zadávat žádnou diakritiku! Efekt automatického doplnění diakritiky je ale odlišný podle toho, zda se jedná o běžné (jednoduché), či složité (pokročilé) vyhledávání. Doplněním diakritiky totiž může vzniknout více různých termínů, a v jednoduchém vyhledávání se hledají všechny. V případě pokročilého (složitého) vyhledávání se ale bere v úvahu jen jeden z možných "oháčkovaných" termínů, a to ten který příslušný algoritmus uvnitř služby SearchCZ vybere jako první (uživateli však není prozrazeno, jak tento algoritmus funguje, resp. který tvar to bude, a tak je to vlastně zajímavá sázka do loterie).

Dosti netradiční je i způsob zadávání více klíčových slov. Nezadávají se žádné logické operátory, a to ani při pokročilém (složitém) vyhledávání. Při jednoduchém (běžném) vyhledávání se automaticky bere mezi všemi klíčovými slovy operátor OR (zatímco u jiných vyhledávacích služeb je zvykem spíše "měkké" AND, které přechází v OR teprve tehdy, když se zadaná klíčová slova nevyskytují nikde současně). Při pokročilém vyhledávání je možné explicitně zadat, zda mezi klíčovými slovy má být logické OR, nebo AND. Není ale možné je kombinovat, či dokonce vytvářet složitější konstrukce pomocí závorek a operátorů NOT. Stejně netradiční je i to, co služba SearchCZ označuje jako vyhledávání frází. Ve skutečnosti se tím chápe "přísnější" AND mezi jednotlivými klíčovými slovy, kdy je možné explicitně zadat jak daleko smí být klíčová slova od sebe, a zda musí nebo nemusí být ve stejném pořadí, v jaké byla uvedena. To nemá téměř nic společného s tím, co se u vyhledávacích služeb obvykle označuje jako fráze (a tím je hledání určitého řetězce znaků "tak jak stojí a leží", znak po znaku). Na druhé straně to je velmi silný mechanismus, o jakém si může nechat zdát třeba i báječná AltaVista - pouze ona má něco podobného, a to operátor NEAR, který umožňuje předepsat že dvě klíčová slova mají být maximálně 10 slov od sebe (zatímco zde je možné explicitně vymezit jejich "vzdálenost" i pořadí).

Užitečné jsou i různé možnosti setřídění výsledků (například podle titulku, podle své URL adresy apod.), možnost zadat vyhledávání pouze v titulku stránky, pouze v její URL, pouze v jejím těle atd. (podrobněji viz čtvrtý obrázek [GIF4,URL4]). Zcela však chybí možnost agregace výsledků.

Velkou nevýhodou plnotextového vyhledávání služby SearchCZ je malý rozsah její databáze (resp. malá zásoba "zindexovaných" stránek). O konkrétní míře tohoto malého rozsahu si můžete udělat sami představu z dnešního třetího obrázku, na kterém je výsledek stejného dotazu, jaký jsem položil i podobně zaměřeným službám Kompas a Atlas (viz předchozí díly této rubriky). Obě dvě mi našly celkem srovnatelný počet dokumentů, a to cca 30 000. SearchCZ jich našel s diakritikou 69, a bez diakritiky 200. Pravdou je, že SearchCZ počítá každou stránku jen jednou, bez ohledu na počet jejích jazykových mutací, zatímco druhé dvě služby počítají každou mutaci zvlášť. Na druhé straně u svého archivu vím přesně, že každá stránka se vyskytuje přesně ve čtyřech jazykových mutacích, včetně verze bez diakritiky, takže výsledky stačí vydělit, resp. vynásobit čtyřmi. I tak je ale výsledek služby SearchCZ na tomto konkrétním příkladu více než slabý.

Kromě plnotextového vyhledávání je součástí služby SearchCZ i katalog: jeho nejvyšší úroveň vidíte na dnešním pátém obrázku [GIF5,URL5]. Na rozdíl od obdobných katalogů (Seznam, katalog Atlasu) zde však zcela chybí možnost automatického vyhledávání v rámci nabídkových stránek. Takže potřebujete-li najít v katalogu něco konkrétního, musíte se obrnit velkou trpělivostí a hledat ručně.

Užitečným doplňkem služby SearchCZ jsou i dotazovací formuláře, prostřednictvím kterých je možné pokládat dotazy dalším informačním zdrojům (které již nemusí být provozovány SPT Telecomem), viz šestý obrázek [GIF6,URL6]. Z těch které provozuje sám Telecom je zde mj. odkaz na možnost on-line hledání v telefonním seznamu [GIF7,URL7]. Po navolení příslušného odkazu se ale ukáže, že tato služba je pouze pro registrované uživatele služby InternetOnLine (tj. jen pro zákazníky Telecomu). No comment.


Seznam obrázků:

  1. Domovská stránka služby InternetOnLine
  2. Domovská stránka SearchCZ
  3. Výsledek konkrétního dotazu
  4. Formulář pro složité (pokročilé) vyhledávání
  5. Katalog služby SearchCZ
  6. Nabídka dalších vyhledávacích služeb
  7. Telefonní seznam, ale jen pro registrované uživatele