Vyšlo na Lupě,
Vytištěno z adresy: http://www.earchiv.cz/b08/b1124001.php3

Stalo se: Europeana, digitální blamáž po evropsku

Při otevírání nové evropské digitální knihovny Europeana došlo k pořádné tlačenici: nápor prvních zájemců byl prý tak velký, že vstup do knihovny se úplně ucpal a tato byla vyřazena z provozu. V reálném světě by náprava zabrala možná i několik hodin, ale tady jde o Internet – a zbrusu nová on-line služba má kvůli úvodní tlačenici zůstat mimo provoz hned  celý měsíc!

Začalo to všechno velkou slávou: ve čtvrtek minulý týden se v Bruselu konala další Rada EU (dříve: Rada ministrů), tentokráte věnovaná oblasti kultury  a audiovizuálním službám. Hlavním bodem jejího programu bylo slavnostní spuštění nové evropské digitální knihovny, s hrdým názvem Europeana. Připravována je  už několik let a jejím cílem je skrze digitalizaci zachovat, zpřístupnit a dále rozvíjet již beztak velmi bohaté evropské kulturní dědictví. V celé jeho šíři a rozmanitosti, tak aby bylo dostupné on-line, po Internetu.

Nu, na takovéto historické události pochopitelně nemohly chybět nejvyšší špičky Evropské unie. A tak komisařku Viviane Redingovou, která Radu jinak vedla, při slavnostním spouštění digitální knihovny Europeana zastínil sám předseda Evropské komise, José Manuel Barroso. Ten ve svém projevu nešetřil superlativy: Europeana má prý šanci změnit to, jak lidé vnímají evropskou kulturu. Usnadní jim ocenit vlastní minulost, a také více si cenit své společné evropské identity. Komukoli po celém světě, kdo se zajímá o literaturu, umění, společenské i přírodní vědy, historii, architekturu, hudbu či filmy ukáže významné přínosy, kterými Evropa přispěla v těchto oblastech, a to aniž by zájemce kvůli tomu musel opouštět svůj domov. 

Sama komisařka Redingová následně pamatovala v jednom z konkrétních příkladů i na českého studenta: i ten si prý bude moci prohlédnout sbírky Britské knihovny, aniž by kvůli tomu musel cestovat do Londýna.

Nicméně samotného obsahu není v nové evropské digitální knihovně zase až tak moc, a tak souběžně s tím komisařka vyzvala i členské země, aby neváhaly přispívat do jejího fondu:

Chtěla bych vyzvat evropské kulturní instituce, vydavatelství a společnosti v oblasti technologií, aby do knihovny Europeana vkládaly další obsah v digitální podobě. Europeana by se měla stát základnou pro všechny, kdo chtějí aktivně a kreativně přispívat k evropské kultuře a sdílet ji s ostatními. Mým cílem je, aby Europeana v roce 2010 obsahovala alespoň 10 milionů položek.“

odpovědi na dotaz jednoho italského novináře (který se mimochodem ptal na to, proč celá polovina obsahu Europeany pochází  z Francie), pak komisařka Redingová pronesla přímo prorocké přesvědčení: že některé členské země možná dosud váhaly s umisťováním svých pokladů na Europeanu – ale teď, když uvidí že Europeana je zde a že skutečně funguje, se naopak oni budou předhánět ve snaze umístit sem co nejvíce. A že jen doufá, že Europeana celý tento příval nových exponátů vydrží.

Co se stalo?

No, Europeana nakonec skutečně nevydržela. Jenže nikoli příval nových exponátů, ale nápor prvních návštěvníků, resp. zájemců o vstup do této knihovny a její využití.

Již v průběhu čtvrtka, krátce po slavnostním spuštění, začaly první problémy s dostupností, a také první celkové výpadky služby (projevující se v HTTP dialogu chybovou odpovědí číslo 503, znamenající nedostupnou službu, například kvůli přetížení). Nepomohlo ani posílení serverové kapacity, a tak ještě téhož dne večer došlo k poměrně bezprecedentnímu kroku: k rozhodnutí celou službu zase vypnout. Viz následující screenshot, který nyní visí na všech vstupech do Europeany:

Hned druhý den, v pátek 21. listopadu, vychází tisková zpráva Evropské komise, potvrzující dočasné vypnutí služby – s příslibem jejího opětovného zprovoznění „někdy v polovině prosince“. Ano, čtete správně: nikoli „někdy později odpoledne“, či snad následující den, ale skoro až za měsíc!! Prý je to nutné kvůli zásadnímu navýšení výpočetních kapacit a jejich otestování.

Publikováno bylo i podrobnější vysvětlení potíží: na základě doporučení expertů prý byl celý systém dimenzován na (maximální) zátěž  5 milionů hitů (požadavků) za hodinu, a takovouto zátěž prý také během zátěžových testů bez problémů snášel. Ovšem již kolem 11. hodiny dopoledne, v den svého spuštění, dosáhla zátěž cca 8 milionů hitů, systém začal mít problémy, zpomaloval a poprvé spadl. Následně mělo dojít k určitému posílení serverové kapacity, ze 3 původně použitých serverů na blíže neupřesněnou konfiguraci, ale zátěž dále rostla – na 10 milionů požadavků, a pak až na 13 milionů, což ani posílený systém neunesl a stále reagoval velmi pomalu či úplně havaroval. Následně přišlo již zmiňované rozhodnutí o dočasném odstavení, zásadnějším posílení a opětovném zprovoznění někdy v polovině prosince.

Zveřejněn byl i improvizovaný graf, ukazující procentuelní rozložení příchozích požadavků podle zemí. Docela mne ale zaráží forma tohoto grafu, nadepsaného „Využití podle umístění, v listopadu 2008“. Jedná se skutečně o statistiku jednoho konkrétního dne (20. listopadu), a ne třeba dlouhodobějšího průměru přístupu na demo, které bylo dostupné již dávno před spuštěním?

Co na to řekla EK?

Docela zajímavé (a možná i příznačné) je i to, jak na celý problém zareagovala Evropská komise. Již zmiňovaná tisková zpráva, poměrně promptně vydaná hned následující den po spuštění (a následném vypnutí), totiž neobsahuje žádnou omluvu těm, kteří se do nové knihovny chtěli podívat, ale nepodařilo se jim to. Místo toho byl celý „pád na ústa“ v tiskové zprávě dokonce prezentován jako vítězství a jako potvrzení toho, že o novou knihovnu je skutečně zájem. Což je určitou reakcí na to, že mnohé národní knihovny a další „vlastníci obsahu“ mnohdy neoplývali zájmem o zařazení jejich obsahu do knihovny Europeana, často s argumentem, že o ni nebude až tak velký zájem.

Britské Times dokonce citovaly komisařku Redingovou, která měla říci:

„Není to selhání ale neočekávané vítězství. Všichni to vnímáme jako potvrzení toho, že tento projekt má smysl ….“

S hypotézou, že by se mohlo jednat i o DDOS útok, přišel podle mých zjištění jen  jeden ruský server  - s poznámkou, že v Evropské komisi asi nikdy neslyšeli o distribuovaných útocích DOS, když se o nich vůbec nezmiňují. Pravdou přitom je, že materiály EK případný útok DDOS skutečně nezmiňují, a to ani v rovině jeho vyvrácení (tj. konstatování, že se o takový útok nejednalo).

Jaké je technické řešení Europeany?

Když jsem se snažil zjistit něco podrobnějšího o technickém zázemí celé knihovny Europeana, zejména o konfiguraci použitých serverů, nebyl jsme úspěšný. Jedinou dostupnou  informací se tak zdá být počet původně použitých serverů (3 kusy), a také zmínka o využití určité formy rozkladu zátěže (load balancing-u). Někteří neúspěšní zájemci o přístup ke knihovně přitom informovali na Internetu o tom, že nedostupný server se jim hlásil z platformy Debian (viz např. zde). Někteří z toho odvodili i to, že šlo jen o nějaké „malé Debian-boxy“.

Jinak ale pro celkovou koncepci Europeany platí, že jde spíše o určitou vyhledávací nadstavbu nad již existujícími knihovnami, než o knihovnu jako takovou.  Konkrétně jde o to, že Europeana (asi až na výjimky, potvrzující pravidlo) nehromadí vlastní obsah: ten zůstává tam, kde už je (u nejrůznějších národních knihoven, muzeí, galerií, ale i u dalších subjektů), a Europeana pouze zjišťuje existenci takovéhoto obsahu, získává jeho popis (metadata, náhledy atd.), a pouze ten ukládá do svých databází a následně využívá pro zodpovídání dotazů ohledně výskytu konkrétního obsahu. Europeanu si tedy lze představit i jako určitý agregátor, či pokročilejší katalog a vyhledávač, který mapuje dostupný obsah v určitých oblastech (představujících „evropské kulturní dědictví“), a zprostředkovává k němu přístup.

K fungování Europeany proto patří i řešení takových nelehkých úkolů, jako je objevování (zjišťování) dostupného obsahu, vymezení požadovaného popisu a jeho sběr, následné třídění, indexování atd. Zájemce o detaily mohu odkázat například sem, neboť v tomto ohledu (na rozdíl od popisu hardwaru) jsou autoři vcelku sdílní.

Nicméně „nadstavbový charakter“ Europeany, která sama o sobě není depozitářem obsahu jako takového, souvisí i s potřebami  jejího technického řešení. Konkrétně s tím, že zřejmě nepotřebuje distribuovat velké objemy dat, tak aby byly k dispozici (bez potřeby modifikace) v různých částech světa pro co nejrychlejší stažení. Například skrze sítě typu CDN, Content Distribution Network.

Europeana by spíše měla potřebovat dostatečně velkou výpočetní a databázovou kapacitu pro zodpovídání dotazů, které jí budou kladeny. Případně pro (podstatně jednodušší) nabízení předem připravených přehledů (katalogů), kterými může uživatel  sám procházet. Jistě, obojí se dá dnes pořídit, a to jak v dimenzích „do 5 milionů hitů za hodinu“, tak i pro podstatně vyšší maximální zátěže. Lze to udělat i tak, že příslušná kapacita bude vhodně „nafukovací“, tak aby se dala přidávat a zase ubírat podle potřeby, téměř (či víceméně) v reálném čase – třeba právě pro takové jednorázové situace, jako je počáteční spuštění. Znalejší čtenáři Lupy jistě dokáží podrobněji popsat příslušné možnosti.

Proč došlo k pádu?

Zpět ale k tomu, jak slavnostní spuštění Europeany dopadlo. Že systém, dimenzovaný na maximum 5 milionů hitů, neunesl zátěž 8 a více milionů hitů, asi není překvapením. Také samotný odhad 5 milionů požadavků (hitů), na kterém bylo vše založeno, bych moc nekritizoval. Byl zřejmě odvozen od návštěvnosti projektu EDL (European Digital Library), který byl jakýmsi předchůdcem Europeany, a vzhledem k němu byl mnohonásobně předimenzován. Pro srovnání: 5 milionů hitů za hodinu by mělo být zhruba srovnatelné s dlouhodobým průměrem zátěže celého českého Seznamu, v přepočtu na hodinu (zatímco zde jde o maximum).

Spíše bych podrobil kritice to, že autoři celého technického řešení jej nenavrhli jako dostatečně (a také rychle) škálovatelné. Když došlo na lámání chleba, dokázali jej vcelku rychle posílit zhruba na dvojnásobek kapacity, ale dále už ne. To by samo o sobě nemuselo být až tak strašné – pokud by další posílení bylo otázkou hodin. Maximálně snad několika málo dnů  - než budou fyzicky dodány potřebné další komponenty, po nasazení všech těch, které byly k dispozici okamžitě. Jenže odstavení do poloviny prosince, tedy prakticky na celý měsíc, je už něco úplně jiného. Jak někdo na Internetu trefně poznamenal: to  snad budou tři nové servery objednávat až z Měsíce?

A tak se současně otevírají dveře i pro nejrůznější spekulace. Kromě té o DDOS útoku, zmíněné již výše, je asi možné spekulovat i o tom, že na celém technickém řešení projektu bylo něco nedokončeného či nedotaženého, kvůli čemu bylo nutné udělat tak dlouhou odstávku (když slavnostní spuštění už nebylo možné odložit). Případně nějaký zásadnější problém, který se ukázal až teprve při reálné zátěži, a jehož odstranění také zabere čas v řádu celého měsíce. Ale to jsou skutečně jen pouhé spekulace.

V každém případě to ale hodnotím jako pořádnou blamáž, i když nejvyšší evropští představitelé hovoří naopak o vítězství. Že jeden z předních evropských projektů, s opravdu velkými ambicemi, zkolaboval hned po svém spuštění, je trapné. Ale  ještě více mne udivuje délka doby, kterou si vyžádá náprava. A to ještě nevíme, zda bude úspěšná.