Vyšlo v týdeníku CHIPweek č. 20/95, 13. září 1995
Vytištěno z adresy: http://www.earchiv.cz/a95/a520k140.php3

Archie hledá jehlu v kupce sena

V minulých dílech našeho toulavého seriálu jsme se vydali do světa FTP archivů. Přitom jsme mlčky předpokládali, že přesně víme kam sáhnout, abychom získali právě to co potřebujeme. Dnes se již dostaneme k tomu, jak postupovat při hledání něčeho konkrétního v tak obrovském skladišti, jaké dohromady tvoří všechny anonymní FTP archivy v Internetu. Skladišti tak obrovském, že jakékoli ruční hledání v něm musí nutně připomínat příslovečné hledání jehly v kupce sena. Naštěstí si ale můžeme zavolat na pomoc velmi výkonného pomocníka, jménem Archie.

Na úvod přijměte malou úvahu o možnostech vyhledávání obecně: při dnešních rozměrech Internetu není myslitelné, aby si hledání něčeho konkrétního zajišťoval sám koncový uživatel takovými prostředky, jaké má k dispozici a je schopen využívat. Místo toho se zavádějí specializované vyhledávací služby, schopné „hledat za vás". Důvody jsou ryze praktické: koncový uživatel by nejspíše nikdy nemohl obsáhnout takový „záběr" hledání jako specializovaná vyhledávací služba, která nemá na práci nic jiného. Hlavně by ale bylo neúnosné, aby hledání provádělo příliš velké množství subjektů najednou - tedy aby každý hledal vše znovu, na všech možných místech. Únosné je povolit intenzivnější prohledávání potenciálních „nalezišť" jen několika málo subjektům, provozujícím vyhledávacích služby, a očekávat že tyto subjekty se o své znalosti (výsledky prohledávání) podělí se všemi potenciálními zájemci o nalezení něčeho konkrétního.

Přibližme si tuto obecnou představu na konkrétním příkladu vyhledávání v anonymních FTP archivech. Provozovatel vyhledávací služby (vyhledávací server) v pravidelných intervalech (například jednou týdně) „obchází" FTP archivy ve svém okruhu působnosti, nechává si vypsat obsah jejich adresářů, a ten si pak ve vhodném tvaru pamatuje (zanese do své databáze). Koncový uživatel, který potřebuje něco konkrétního najít, se pak neobrací přímo na ta místa, kde tuší že by se hledaný soubor mohl nacházet - místo toho se obrací se svým dotazem na server vyhledávací služby. Ten prohledá své záznamy, a pokud v nich najde informace o požadovaném souboru, vrátí je koncovému uživateli. Ten tedy od serveru vyhledávací služby obdrží informace typu „soubor XY se nachází na FTP serveru ABC, v adresáři DEF". Je pak již na koncovém uživateli, aby si pro zmíněný soubor „došel" takovým způsobem, jaký má k dispozici.

Na právě naznačeném principu pracuje například vyhledávací služba se jménem Archie, která je zřejmě nejrozšířenější službou pro vyhledávání v anonymních FTP archivech. Není však jedinou službou svého druhu - přespříště si ukážeme, že například u nás (konkrétně v Liberci) je domovem obdobná služba se jménem Nosey Parker (česky: Čmuchal). To je ostatně i důvod, proč v tuzemsku není žádný server vyhledávací služby Archie - a tak vás musím pozvat k návštěvě zahraničního Archie serveru, konkrétně anglického serveru na londýnské Imperial College. Je provozován na počítači, který je současně i jedním z největších anonymních FTP archivů na světě (je sponzorován firmou Sun Microsystems, a proto se také jmenuje Sunsite).

Než se ale vydáme do Londýna, ještě malé upozornění. Existují dva základní způsoby práce se servery vyhledávací služby Archie. Oba předpokládají, že se „bavíte" s Archie serverem prostřednictvím vhodného klientského programu (Archie klienta), ale liší se v tom, kde tento klient běží. První možností je ta, kdy klientský program (Archie klient) běží na stejném počítači jako samotný Archie server, zatímco ve druhém případě běží Archie klient přímo na vašem počítači.

Ukažme si nejprve první případ, označovaný také jako použití „vzdáleného klienta" či „veřejného klienta". V tomto případě se koncový uživatel musí se svým počítačem dostat do postavení vzdáleného terminálu toho počítače, na kterém Archie klient skutečně běží. K tomuto účelu (označovanému také jako vzdálené přihlašování, anglicky: remote login) se v prostředí Internetu využívá služba Telnet. Prostřednictvím Telnetu je tedy nutné se přihlásit ke vzdálenému počítači, na kterém Archie běží. Konkrétní příklad přihlášení k londýnskému Archie serveru (přesněji k jeho veřejnému klientovi) vidíte na dnešním prvním obrázku [GIF1]. Způsob ovládání je třeba se naučit, vřele doporučuji začít příkazem help.

Na dnešním druhém obrázku [GIF2] vidíte seznam všech existujících Archie serverů (vesměs i s veřejnými klienty), které jsou londýnskému serveru známy (vypíše je po zadání příkazu servers). Jak můžete sami vidět, není mezi nimi žádný český Archie server (o důvodech si povíme přespříště). Na třetím obrázku [GIF3] pak vidíte další důležitou informaci - Archie mi zde vypsal, které anonymní FTP servery v ČR (resp. v doméně cz) „obhospodařuje" a ze kterých sbírá informace o jejich obsahu. Nejsou to zdaleka všechny významnější tuzemské FTP servery, ale opět to souvisí s tím, že u nás se místo Archieho používá spíše alternativní služba Parker.

Dotazy, které uživatelé pokládají vyhledávací službě Archie, mohou být různým způsobem precizovány, limitovány či jinak omezovány. Lze například zadat, že mají být hledány soubory na FTP serverech jen v určité doméně, či skupině domén. Takto jsem například postupoval při kladení dotazu na dnešním čtvrtém obrázku [GIF4] - zde jsem nejprve zadal, že chci hledat jen v českých FTP archivech (příkazem set match_domain cz), a pak zadal hledání takového souboru, který ve svém jménu či příponě obsahuje podřetězec „wscan" (tj. hledal jsem Windowsovskou verzi oblíbeného antivirového programu firmy McAfee). Výsledek snad hovoří sám za sebe.

Na posledních dvou obrázcích vidíte alternativní řešení, využívající lokálního Archie klienta - tedy program, který běží přímo na počítači koncového uživatele (zde konkrétně v prostředí MS Windows), a sám se „domlouvá" se vzdáleným Archie serverem svým specifickým protokolem. Výhodou je vyšší uživatelský komfort - na pátém obrázku [GIF5] vidíte zadání nového dotazu, kterým jsem Archieho nechal vyhledat sebe sama, přesněji klientský program pro prostředí MS Windows, který na pátém a šestém obrázku vidíte. Navíc jsem zde zadal i to, že má být hledáno i na Slovensku (v doméně sk) a v Rakousku (v doméně at). Výsledek vyhledání vidíte na posledním šestém obrázku [GIF6] - Archie našel svého klienta mj. i na FTP serveru pražské VŠE, kam jsem vás zavedl v sedmnáctém dílu našeho seriálu.

Použití lokálního Archie klienta má pak ještě jednu výraznou výhodu - pokud jej správně nakonfigurujete, je schopen spolupracovat se zadaným klientem služby FTP. V praxi to pak znamená, že když Archie klient něco konkrétního najde a zobrazí, vám stačí popis příslušného souboru navolit (poklepat na něj myší), a Archie klient sám zavolá FTP klienta, aby jej přenesl ze vzdáleného počítače až k vám.

No a na závěr to úplně nejpodstatnější - služba Archie vyhledává právě a pouze ve jménech (a ev. příponách) souborů. V žádném případě se nedívá „dovnitř" těchto souborů. Je na vás, aby jste vhodně odhadli alespoň část názvu souboru, který hledáte.


Seznam obrázků:

  1. Přihlášení ke vzdálenému (veřejnému) klientu služby Archie
  2. Výpis známých Archie serverů (s veřejnými klienty)
  3. Výpis českých FTP archivů, jejichž obsah Archie server pravidelně prohledává
  4. Dotaz službě Archie na vyhledání souboru s podřetězcem „wscan" ve jménu, s omezením na české FTP archivy
  5. Zadání dotazu lokálnímu klientovi služby Archie
  6. Výsledek dotazu, prezentovaný lokálním klientem