Vyšlo v týdeníku CHIPweek č. 14/95, 19. července 1995
Vytištěno z adresy: http://www.earchiv.cz/a95/a514k140.php3

Výstřižková služba pro síťové news?

V minulých dílech jsme se podrobněji zabývali podstatou tzv. síťových news (NETNEWS, USENET). Dnes bych vás rád seznámil s jednou zajímavou službou, které umožňuje velmi efektivně čerpat z jinak nepřeberného množství informací a zpráv, které se v rámci síťových news každodenně objevují. Řeč bude o moderní výstřižkové službě, která za vás dokáže pravidelně číst všechny příspěvky z relevantních diskusních skupin, a posílat vám jen takové, které by vás mohly zajímat.

Jednou z méně příjemných vlastností síťových news je jejich obrovitost - jak jsme si již naznačili v předchozích dílech, počty diskusních skupin jdou do tisíců, a i když "míra ukecanosti" v jednotlivých skupinách je dosti rozdílná, počty každodenně vznikajících příspěvků jsou jednoduše obrovské. Není proto vůbec v lidských silách přečíst všechno, co kdo kdy napíše a pošle do síťových news. Často dokonce není v lidských silách ani něco o hodně menšího - sledování několika diskusních skupin, které pokrývají profesní zájem konkrétního uživatele. Objem informací, které by bylo třeba "přefiltrovat", je zkrátka moc velký.

Ovšem co není v silách člověka, může být v silách dostatečně výkonného počítače a vhodně napsaného programu. A takový dnes již existuje, a je provozován v rámci veřejně dostupné služby, poskytované navíc zdarma. Děje se tak na známé univerzitě v americkém Stanfordu, kde jsou domovem hned dvě zajímavé služby, založené na využití jednoho společného nástroje - systému SIFT, neboli: Stanford Information Filtering Tool. Tento systém zřejmě vzniknul v rámci rozsáhlejšího projektu, který se zabývá filtrováním a distribucí informací v masovém měřítku, a v současné době je nasazen na dva opravdu masové zdroje informací - na síťové news, a na výzkumné zprávy (tzv. technical reports) z oblasti computer science (u nás též: informatiky). Domovskou stránku systému SIFT, ze které vedou odkazy na obě poskytované služby i další zajímavé informace, vidíte na dnešním prvním obrázku [GIF1,URL1].

Nás však bude dnes zajímat pouze první z obou služeb, která se týká síťových news (a ke které nás dovede hned první aktivní odkaz WWW stránky na prvním obrázku ). Jde o službu se všeříkajícím názvem Stanford Netnews Filtering Service, která je uživatelům přístupná jak prostřednictvím WWW, tak i prostřednictvím elektronické pošty. To, co vidíte na dnešním druhém až pátém obrázku [GIF2,URL2], [GIF3,URL3], [GIF4], [GIF5,URL5] je tedy pouze jedna ze dvou možných "tváří" této služby, uzpůsobená možnostem a konvencím služby WWW.

Co ale zmíněné služba vlastně nabízí? Řečeno stručně: umožňuje vám vyspecifikovat témata, která vás zajímají, a pak vám bude prostřednictvím elektronické pošty pravidelně avizovat všechny příspěvky, které se v rámci síťových news objeví a zabývají se vámi specifikovanými tématy. Navíc ve všech diskusních skupinách, které tato služba sama odebírá (což jsou prakticky všechny významnější skupiny, kromě některých vysloveně lokálních).

Specifikovat témata svého zájmu můžete prostřednictvím jednoho či několika tzv. profilů. V každém z nich mohou být vyjádřena klíčová slova, která mají být v příspěvcích obsažena, a stejně tak tam mohou být uvedena i klíčová slova, která se tam naopak nemají objevit. Takže chcete-li být například informováni o dění kolem sítě Microsoft Network, můžete použít profil pozůstávající ze dvou slov: "Microsoft Network". Podobně chcete-li být informováni o diskusi o všem českém, ale nikoli ve spojitosti se Slovenskem, můžete použít profil "Czech not Slovak". Přitom přesný význam jednotlivých klíčových slov, které zadáte v rámci svých pofilů, ještě závisí na tom, zda tento profil prohlásíte za booleovský, nebo za tzv. vážený. V prvním případě je to jednoduché - všechna vámi zadaná slova se musí v příspěvku vyskytovat (a naopak se tam nesmí vyskytovat ta, která jste opatřili výmluvným "not"). Pokud se rozhodnete pro tzv. vážený profil, bude vyhledávací stroj vypočítávat míru, do jaké každý příspěvek splňuje vámi zadaný profil, a pokud tato míra překročí určitou mezní hranici (kterou ale musíte zadat vy), je vám příspěvek avizován. Profilů přitom můžete zadat tolik, kolik uznáte za vhodné (možná existuje nějaké praktické omezení, ale já jsem na něj nenarazil). Své profily si můžete nechat kdykoli vypsat (viz dnešní čtvrtý obrázek [GIF4]), a samozřejmě je můžete i průběžně měnit, rušit, či dodatečně přidávat. Pokud své profily zadáváte prostřednictvím služby WWW (skrz formulář na obrázku 3 [GIF3,URL3]), můžete si dokonce okamžitě otestovat "účinnost" každého jednotlivého profilu (který bude zkusmo aplikován na příspěvky z předchozího dne). To je velmi výhodné zvláště pro stanovení vhodné mezní hranice u vážených profilů.

Co si ale představit pod tím, že je vám příspěvek "avizován"? Jde o to, že ze Stanfordu vám neposílají články hned napoprvé celé, ale pouze jejich hlavičku (ze které je patrný autor, datum atd.), a pak zadaný počet prvních řádek zprávy (implicitně 20, ale tento počet si také stanovujete sami). Důvodem je snaha šetřit přeci jen omezené přenosové kapacity Internetu, a dále předpoklad, že i z těch příspěvků, které úspěšně prošly sítem vašich profilů, vás ještě nemusí zajímat zdaleka všechny (což z prvních několika řádek většinou lze poznat). Když vás nějaký konkrétní příspěvek skutečně zaujme a nechcete se spokojit pouze s jeho začátkem, můžete si jej samozřejmě vyžádat celý (tj. nechat si jej obratem poslat elektronickou poštou). Avíza příspěvků, které prošly sítem vašich profilů, vám mohou být zasílány elektronickou poštou denně, nebo jednou za zadaný počet dní - je opět na vás, aby jste si tuto frekvenci zadali.

Rozesílání vlastních příspěvků i jejich avíz je řešeno výhradně na bázi elektronické pošty. K jejich "objednávání", neboli k práci se svými profily, můžete využít služby WWW, tak jak jsme si až dosud popisovali, ale stejně tak dobře můžete i tyto činnosti realizovat i prostřednictvím elektronické pošty. O nic tedy nejsou ochuzeni ani ti uživatelé, kteří mají přístup pouze k elektronické poště. Pokud si službu Stanford Netnews Filtering Service chcete vyzkoušet právě prostřednictvím elektrornické pošty, pošlete nejprve krátkou zprávu na adresu netnews@db.stanford.edu, a v jejím těle uveďte magické slovíčko help. Jako odpověď Vám přijde podrobný návod. Úryvek z tohoto návodu (v HTML formě) vidíte i na dnešním pátém obrázku [GIF5,URL5].

Když jsem si sám zkoušel s popisovanou službou „hrát", narazil jsem na jisté drobné chybičky. Například skrz tzv. boolské profily jsem nedostal prakticky nic, ač jsem zkoušel zadávat i takové velmi obecné a frekventované termíny jako „Windows" či „Microsoft". Naproti tomu tzv. vážené profily fungovaly vcelku tak, jak bych očekával, a vracely např. takové příspěvky, které by měly projít i skrz síto profilů boolských. Při testování (vyhledávání včerejších příspěvků) prostřednictvím elektronické pošty se mi zase nepodařilo zcela přesvědčit vyhledávací stroj, že se mu snažím zadat vážený profil - zareagoval sice tak, jak by odpovídalo váženému profilu, ale ve své odpovědi stále tvrdošíjně opakoval, že jde o profil boolský (výsledek vidíte na dnešním posledním, šestém obrázku [GIF6]). Inu, nic není dokonalé.


Seznam obrázků:

  1. Domovská stránka systému SIFT
  2. Domovská stránka služby na filtraci síťových news
  3. Formulář pro zadávání profilů
  4. Výpis již zadaných profilů
  5. Návod k využití služby prostřednictvím el. pošty (úryvek)
  6. Příklad avíza vyhledaných příspěvků
  7. Příklad vyhledání "na místě", prostřednictvím služby WWW