Jak na češtinu?
Velmi zajímavým aspektem je i otázka češtiny při vyhledávání - mají uživatelé zadávat své dotazy v cestine nebo češtině? A když v češtině, potom v jaké?
Na tuto velmi důležitou otázku neexistuje jednoznačná odpověď - vždy záleží na tom, jak přesně funguje a chová se příslušná vyhledávací služba. Asi nejlépe na tom jsou naše tuzemské vyhledávací služby (např. Kompas), které jejich autoři mohli přizpůsobit naší specifické situaci s mnoha variantami české diakritiky. Takovýmto službám lze zadávat vyhledávací dotazy s diakritikou, kterou pak správně interpretují, a dokáží si poradit i s tím, že různí uživatelé mohou klást své dotazy z takových platforem, na kterých se používá jiná implementace diakritiky (např. počítače PC s MS Windows používají "jinou češtinu" než třeba počítače Macintosh). Naproti tomu jiné vyhledávací služby databázového typu s češtinou předem vůbec nepočítají, a znaky s českou diakritikou chápou "natvrdo" jako kterékoli jiné znaky - i pak ale lze používat v dotazech háčky a čárky, ale je nutné počítat s tím, že nalézt se pak mohou jen v textech kódovaných stejným způsobem (neboli se stejnou verzí češtiny). Ještě jiné služby se pak s češtinou vyrovnávají tak, že při indexování samy odstraní všechny háčky a čárky, a pak má smysl klást jim dotazy pouze bez diakritiky. Zajímavou singularitou je vyhledávací služba SearchCZ, provozovaná naším Telecomem - ta přijímá vyhledávací dotazy v cestine, bez háčků a čárek, ale sama si domýšlí možné háčky a čárky, a podle toho pak vyhledává (způsobem, který z pohledu uživatele není zcela deterministický, což může vést i ke kuriózním výsledkům).
Obecně tedy nesmírně záleží na konkrétní vyhledávací službě, a jediným možným doporučením je seznámit se s návodem k použití u každé konkrétní služby, kterou budete používat.