Vyšlo v týdeníku CHIPweek č. 12/96, 19. března 1996
Vytištěno z adresy: http://www.earchiv.cz/a96/a612k130.php3

Robot

Bylo by jistě nošením dříví do lesa připomínat, že termín „robot" je českého původu, a že jeho autorem je spisovatel Karel Čapek. Ten jej také poprvé použil ve svém známém dramatu RUR - i když některé historické prameny uvádí, že poprvé tento termín vyslovil v jedné společné diskusi bratr Karla Čapka, pan Josef Čapek. Nicméně se slůvkem „robot" se můžeme setkat i v terminologii dnešního Internetu, nejčastěji v souvislosti se službou World Wide Web. Zde se pod pojmem „robot" (nebo též „WWW robot") rozumí program, který sám, cíleně a bez přímé lidské spoluúčasti či dohledu vykonává určitou činnost.

Repertoár činností, které „WWW roboti" mohou vykonávat, je značně široký - roboti mohou být využiti pro shromažďování nejrůznějších statistik, pro zajišťování úkolů v oblasti údržby a správy sítě (například pro kontrolování korektnosti URL odkazů mezi jednotlivými WWW stránkami), a pro mnoho dalších činností. Zřejmě nejvíce jsou ale WWW roboti využíváni pro vyhledávání nových zdrojů v Internetu a pro jejich podrobnější mapování, pro potřeby nejrůznějších vyhledávacích služeb. Tento způsob využití (kterému se v angličtině říká „resource discovery") je přitom tak dominující, že když se dnes v Internetu řekne „robot", je prakticky vždy míněna vyhledávací a mapovací část nějaké internetové vyhledávací služby. Jak tedy vypadá a jak funguje typický WWW robot?

Představujme si jej jako program, který podle určitého algoritmu prochází WWW servery a jejich jednotlivými stránkami, analyzuje jejich obsah - například zjišťuje, kam vedou odkazy z těchto stránek, pamatuje si relevantní části obsahu stránky apod. - a pak se vydává někam dále. Slovíčko „vydává" však není úplně přesné, neboť WWW roboti většinou sami nikam necestují. Místo toho „běží" pořád na stejném místě (na serveru vyhledávací služby, které jsou součástí), a s místy která prohledávají komunikují obvyklými protokoly světa WWW (tj. zejména prostřednictvím protokolu HTTP, kterým jsou přenášeny jednotlivé stránky). WWW robot je tedy v mnohém podobný uživateli-člověku, neboť stejně jako on postupně čte jednotlivé WWW stránky. Pouze tak činí mnohem systematičtěji, rychleji, a za poněkud jiným účelem než jeho lidský protějšek.

Rychlost a systematičnost WWW robotů je však současně i zdrojem nepříjemných problémů. Pokud nějaký WWW server „navštíví" důkladný a vytrvalý robot, který systematicky čte jednu jeho WWW stránku za druhou, může to pro tento server představovat opravdu nemalou zátěž, která může i vážně ztížit jeho řádné využití. Jsou dokonce známy takové případy, kdy „návštěva" WWW robota způsobila zhroucení celého WWW serveru. Dalším zdrojem nepříjemností pak může být i systematičnost, s jakou WWW robot doslova „prošťourává" všechna možná zákoutí dostupných WWW serverů, v poctivě motivované snaze objevil skutečně všechny jejich zdroje. Zdaleka ne všechno je totiž vhodné k následnému zveřejnění v rámci vyhledávací služby, pro kterou WWW robot pracuje.

Pro praktické využití WWW robotů, které by na jedné straně umožňovalo efektivně najít a zmapovat maximum dostupných zdrojů, a na druhé straně nekomplikovalo život majitelům těchto zdrojů, je žádoucí existence určitých „pravidel slušného chování". V rámci těchto pravidel by mělo být například možné stanovit, kam roboti smějí, a kam by naopak vstupovat neměli (tj. které WWW stránky by neměli mapovat). Takováto pravidla a s nimi související mechanismy však teprve vznikají, a jejich vývoj ještě zdaleka není na uspokojivé úrovni.

Podobně nepříliš uspokojivá je i stránka terminologická: vedle pojmu „robot" se často používají i termíny „worm" (doslova: červ), „wanderer" (dolova: tulák), „spider (pavouk). Rozdíl mezi nimi přitom nebývá prakticky žádný, a jde jen o jiná označení jednoho a téhož - toho, co jsme si až dosud popisovali jako „WWW robota".