Vyšlo v týdeníku Českomoravský Profit č. 12/98, v březnu 1998
Vytištěno z adresy: http://www.earchiv.cz/a803p200/a803p229.php3

Vyhledávání souborů

Prostřednictvím Internetu lze velmi snadno a efektivně přenášet nejrůznější soubory - v zásadě cokoli, co lze "zabalit" do formy souboru, může být umístěno na vhodném serveru kdekoli v Internetu, a odkudkoli z Internetu je pak možné si tento soubor "stáhnout" na vlastní počítač uživatele. Jelikož se k samotnému přenosu souborů používá protokol jménem FTP (od: File Transfer Protocol), jsou servery, na kterých jsou tyto soubory umístěny a odkud jsou "stahovány", označovány jako FTP archivy.

FTP archiv si lze představit jako jednoduché "skladiště" souborů, které může být neveřejné, neboli určené jen pro určitou skupinu uživatelů (například pro zákazníky určité firmy, která FTP archiv zřídila, a jeho prostřednictvím zpřístupňuje svým zákazníkům například různé aktualizační soubory). Uživatelé, kteří chtějí s takovýmto neveřejným archivem pracovat, musí znát potřebné uživatelské jméno a heslo, a tím se při "vstupu" do FTP archivu prokázat.

FTP archivy však mohou být i plně veřejné, určené komukoli kdo má o jejich obsah zájem. Takovéto archivy pak jsou označovány jako tzv. anonymní FTP archivy - proto, že návštěvník "z ulice" se k nim přihlašuje jako tzv. anonymní uživatel (přesněji: jako uživatel se jménem "anonymous").

Společným charakteristickým rysem všech FTP archivů (anonymních i neveřejných) je skutečnost, že jde skutečně o značně "holá" skladiště souborů - v zásadě neposkytují žádnou nabídku svého obsahu (ve stylu WWW stránek, kterými by bylo možné se brouzdat). Místo toho se spíše očekává, že uživatel "půjde na jistotu", bude předem vědět že se zde nachází soubor který potřebuje (i konkrétně kde), a tento soubor si jednoduše stáhne k sobě. V rámci FTP archivů sice lze určitým způsobem vyhledávat, ale jen nepřímo, prostřednictvím výpisu obsahu jednotlivých adresářů (podobně, jako si v prostředí MS DOSu lze vypsat obsah adresáře příkazem DIR).

Dotazovací formulář (brána mezi službou Archie a WWW),ve spodní části úryvek výsledku předchozího dotazu (měl být vyhledán soubor homesite3.exe)
Systematické prohledávání FTP archivů je tudíž možné (formou systematického vypisování obsahu všech adresářů), ale není určeno pro jednotlivé koncové uživatele (nebo jen jako nouzové řešení). Připadá ovšem v úvahu pro specializované vyhledávací služby, které systematicky a pravidelně "pročesávají" jednotlivé FTP archivy, vypisují si obsahy jejich adresářů, a pak si pamatují jejich obsah. Takovéto vyhledávací služby pak jsou schopné odpovídat na dotazy typu "kde se nachází soubor X.Y", a jako odpověď poskytují URL odkaz na příslušný FTP archiv a konkrétní místo v něm (adresář), kde se soubor nachází - tak aby uživatel mohl použít libovolného klienta služby FTP a zmíněný soubor si "stáhnout" k sobě.

Asi nejznámější službou, fungující na právě popsaném principu, je služba Archie (od anglického: Archiver, doslova: Archivář). Tato vyhledávací služba dokáže pravidelně a systematicky prohledávat FTP servery po celém světě. Původně se s ní dalo pracovat pouze prostřednictvím speciálních Archie-klientů, ale časem se zavedly i další možnosti - například možnost dotazu elektronickou poštou (odpovědí je zaslání zprávy s URL odkazem na místa výskytu hledaného souboru). Z našeho pohledu je nejzajímavější možnost používat službu Archie prostřednictvím brány do světa WWW - zde uživatel zadá svůj dotaz prostřednictvím vyhledávacího formuláře, a stisknutím příslušného tlačítka dotaz odešle. Brána mezi službou Archie a WWW pak zajistí faktické zodpovězení dotazu, včetně předání odpovědi uživateli ve tvaru WWW stránky.


Dotazovací formulář služby Nosey Parker

Příklad výsledků, poskytnutých službou Nosey Parker
Servery vyhledávací služby Archie samozřejmě mapují také české FTP archivy, ale samotná služba Archie v našem tuzemském Internetu příliš rozšířena není (nenajdete zde její servery, jde pouze o servery zahraniční). Důvodem je skutečnost, že u nás se z historických důvodů rozšířila spíše původní česká služba jménem Nosey Parker (alias Čmuchal), vyvinutá na univerzitě v Liberci. Princip jejího fungování je shodný se službou Archie, jiná je pouze konkrétní implementace (pochází ještě z doby čistě akademického českého Internetu, kdy grant ministerstva školství nepostačoval na zakoupení jednoho Archie serveru, ale postačil na vývoj vlastní verze služby pro vyhledávání v FTP archivech). Zajímavé je také to, že služba Nosey Parker (jako novější než Archie) již vznikla pouze jako nadstavba nad službou WWW (a nemá žádné vlastní klientské programy).

Pro správné pochopení služeb jako Archie či Nosey Parker (a dalších služeb, které také existují a nabízí vyhledávání v FTP archivech) je zapotřebí si náležitě zdůraznit konkrétní způsob jejich fungování. Fungují totiž tak, že si pamatují kde se nachází konkrétní soubory (v jakém FTP archivu a na kterém konkrétním místě v rámci těchto archivů). Přitom se zajímají pouze o jména a přípony těchto souborů, ale nikoli už o jejich obsah!!! Proto má smysl klást jim dotazy typu: kde najdu soubor, který se jmenuje tak a tak", případně "kde najdu soubor, v jehož jméně či příponě se vyskytuje takový a takový podřetězec". Rozhodně ale nemá smysl klást jim dotazy typu "kde najdu soubor s hezkým obrázkem Hradčan", nebo "kde najdu soubor s textem zabývajícím se problematikou daně z přidané hodnoty". Odpovědi na takovéto dotazy nejsou v silách služeb typu Archie a Nosey Parker proto, že tyto služby nejdou "dovnitř" souborů a nesnaží se nijak interpretovat jejich obsah. Tudíž ani nemají šanci poznat, zda jde o textový soubor, o rastrovou grafiku apod.