Vyšlo na Lupě, 21.8.2007
Vytištěno z adresy: http://www.earchiv.cz/b07/b0821001.php3

Skype: 278 slov je málo

Tak jak slíbila, zveřejnila  včera společnost Skype vysvětlení svého celosvětového výpadku z konce minulého týdne. A ještě v průběhu dne ho dosti významně změnila. Pouhých 278 slov, navíc spíše od techniků než od nejvyššího vedení společnosti, ale nepůsobí adekvátně tomu, co tak velký výpadek znamenal a co je ve hře. Navíc vznáší další otázky.

Včera jsem zde na Lupě, v článku „Stalo se: Skype padl na ústa“, psal o velkém výpadku v délce přes 44 hodin, který potkal populární a hojně používanou službu Skype skutečně po celém světě. Sama společnost Skype, nebo alespoň ti, kteří pro ni píší její firemní blog, slíbili přinést vysvětlení v pondělí 20.8.2007 (tedy včera). Tak se také skutečně stalo,  a nový příspěvek do blogu, s názvem „Co se stalo 16. srpna“ se zde objevil již brzy ráno, v 7:35 našeho času.

Ve čtvrtek 16 srpna 2007 se peer-to-peer síť Skype stala nestabilní a došlo u ní ke kritickému výpadku (anglicky: disruption, lze přeložit i jako „rozpadu“). Tento výpadek (rozpad) byl iniciován masivním restartem počítačů našich uživatelů po celém světě během velmi krátkého časového intervalu, po přijetí běžného softwarového updatu (a routine software update).

Zastavme se již u tohoto prvního odstavce. Je zajímavý tím, že nespecifikuje, o jaký softwarový update se jednalo. Že by lidé ze Skypu nevěděli, o jaký update šlo? O ten jejich, který prováděli v úterý 15.8. na svých platebních mechanismech? Nebo o velký „update“, který provedl Microsoft, shodou okolností také v úterý 15.8., v rámci již tradičního „záplatovacího  úterý“. Nebo nějaký jiný update?

Ovšem již první reakce, které se záhy začaly objevovat na Internetu, měly v celé věci jasno: jde o úterní Microsoft Update. Jako jeden z prvních ukázal prstem na Microsoft a jeho „záplatovací úterý“ známý britský server The Register, ale rychle následovali další. Jinde, jako například zde, už vzali do ruky i grafické editory:

Osobně mi poněkud vrtalo hlavou, jak je možné, že se úterní distribuce záplat od Microsoftu (alias „update“) mohla projevit masivními restarty až někdy v noci ze středy na čtvrtek, a hlavně „v krátkém časovém intervalu“. Jistě, úterní update od Microsoftu byl velký a vyžadoval restart počítače. Ale u většiny „laických“ uživatelů, kteří mají vše nastaveno na „automaticky“, nejspíše proběhl již v úterý. U firemních zákazníků mohli jejich IT specialisté naplánovat vše jinak a reboot odložit na pozdější dobu. Ale že by se všichni (po celém světě) sešli do skoro stejného okamžiku v noci ze středy na čtvrtek našeho času? Mohl by toto pomoci osvětlit někdo ze zkušenějších čtenářů, který zná podrobnosti příslušných mechanismů záplatování a obvyklých postupů?

A že by právě tyto firemní počítače byly těmi, na kterých služba Skype stojí a padá?

Vyjádření Skypu doznává změn

Nicméně vazba na Microsoft se záhy stala oficiální, když na blogu Skype došlo k aktualizaci předchozí verze zprávy. Původní formulace:

Tento výpadek (rozpad) byl iniciován masivním restartem počítačů …  po přijetí běžného softwarového updatu.

byla totiž ve 13:45 našeho času změněna na podstatně konkrétnější:

Tento výpadek (rozpad) byl spuštěn masivním restartem počítačů …. po přijetí běžné sady záplat skrze Windows Update.

Takže Microsoft je zde, černý na bílém. Ale nikoli tak, jak naznačuje výše uvedený obrázek, v tom smyslu že by Skype ukázal prstem na Microsoft a řekl něco jako „oni jsou všemu na vině“. To z uvedeného, ani z další části vyjádření, rozhodně nevyplývá. Ani zde není jakákoli vina svalována na Microsoft.

Dokonce, a to je dobré si všimnout:  v citované větě se nezměnil pouze její závěr, ale i začátek. Místo původního slovního obratu „výpadek byl iniciován masivním restartem …“ (v originále: „was initiated by …“) je zde použita opatrnější formulace „výpadek byl spuštěn masivním restartem …“ (v originále: „was triggered by“).  Rozdíl se na první pohled zdá být nevýznamný, ale při druhém pohledu už tomu tak nemusí být: původní tvar (s iniciováním) by mohl být vykládán jako úmysl (“… byl úmyslně iniciován …“). Nová formulace už ale takto nevyznívá, zde už jde spíše jen  vyjádření časové souslednosti dvou událostí.

Je to stále živé

To, že text vyjádření Skypu byl takto změněn, je v něm samotném zmíněno (byť bez uvedení původního tvaru). Z mého pohledu je to signál toho, že hodnocení celé kauzy je u samotného Skypu ještě stále „velmi živé“.  Jistě, aktualizace článků, blogů apod. nejsou ničím neobvyklým. Ale v kontextu toho, o co zde jde a co se stalo, mi to přijde dosti neadekvátní.

Nehledě již na to, že samotné vyjádření, čítající v originále pouhých 278 slov, je podepsané osobou jménem Villu Arak, která zřejmě nepatří do nejvyššího vedení společnosti Skype, ale spíše k lidem zajišťujícím chod služby Skype jako takové. To nejvyšší představitelé společnosti Skype, stejně jako společnosti eBay, která ji vlastní, jakoby se během celé kauzy do země propadli. Nepřišlo od nich, či alespoň jejich jménem, vůbec nic – ani nejzákladní ujištění, že služba Skype je stále zde a hodlá dále fungovat. Copak je toho asi příčinou? Nedoceňují, jak velkou ránu dostal image jejich služby? Nedochází jim, že právě nyní se hraje o další budoucnosti služby Skype?

Zahraniční média si toho velmi rychle všimla, a zkonstatovala že „průšvih se sítí“ se snad podařilo úspěšně vyřešit, ale pořádný „PR průšvih“ trvá dále. Že když jde o ohlašování úspěchů, neváhají nejvyšší představitelé firmy přijít vyhřívat se na výsluní. Ale jakmile jde o řešení problémů a nepříjemnosti, není po nich ani vidu ani slechu.

Zajímavé je v této souvislosti i to, že se dosud neozvala ani společnost Microsoft, nejprve nepřímo a pak i přímo „zatažená do hry“. Tipoval bych, že velmi brzy přijde s nějakým stanoviskem či vyjádřením, ve kterém se bude snažit rozptýlit možné obavy z toho, co mohou způsobit její mechanismy pro distribuci záplat (updatů).

Jako argument by Microsoft mohl použít například i to, že jeho „záplatovací úterky“ nezačaly minulý týden, ale konají se již delší dobu. Nynější update také rozhodně nebyl prvním, který vyžadoval na konci restartování počítače. Tak proč až nyní „spustil“ (nikoli „inicioval“) tak fatální pád služby Skype, zatímco dříve nikoli? I to je asi otázka, na kterou zatím není k dispozici jasná odpověď.

Kolik počítačů se restartovalo?

Pojďme ale zpět k samotnému vyjádření Skypu. Dosud jsme si ocitovali jen jednu jeho část, přičemž změnami prošla i jeho další část. Konkrétně druhý odstavec, který původně zněl:

Abnormálně vysoký počet restartů ovlivnil síťové zdroje Skypu. To způsobilo záplavu žádostí o přihlášení, což spolu s nedostatkem zdrojů v peer-to-peer síti vyvolalo řetězovou reakci, která měla kritické dopady.

V průběhu dne se ale odhad počtu restartujících počítačů snížil, alespoň podle použitého adjektiva.  Místo „abnormálně vysokého počtu“  už šlo jen o „vysoký počet“ restartů („high number of restarts“). I to ale spíše dále znejasňuje celkové hodnocení situace, a příliš neladí se zmínkami  o „masivních restartech“. Na druhou stranu by se to dalo interpretovat také tak, že počet restartujících počítačů byl sice vysoký (“masivně“), ale tento vysoký počet nebyl zase až tak ojedinělý, resp. abnormální. To by znovu nastolovalo otázku na to, proč dříve masové restarty nevadily, ale nyní měly tak fatální následky?

A ještě jedna zajímavá otázka, která mne v této souvislosti napadá: proč Skype popisovanými změnami jakoby žehlil své původní vyjádření? A na druhé straně si dříve netroufnul Microsoft explicitně zmínit, kdežto později už ano? Že by v mezidobí probíhalo jednání mezi vedením Microsoftu a vedením Skypu, a popisované změny jsou jeho prvním důsledkem?

Sebeozdravné mechanismy nestačily

Pojďme nyní k další části vyjádření, které se včera objevilo na blogu společnosti Skype. Nyní již půjde o část, která se v průběhu dne nezměnila. Zase ale není až tak konzistentní s tím, co lidé od Skypu tvrdili v průběhu hektických hodin, kdy řešili technickou část problému. Po celou dobu totiž hovořili o „sign-on issue“ („záležitosti s přihlašováním“), a naopak vůbec nezmiňovali peer-to-peer část své sítě. Vlastně ani nijak nenaznačovali, že jejich služba vůbec používá nějaké peer-to-peer prvky. Natož pak něco jako superuzly (supernodes).

Naopak v pondělním vyjádření se již otevřeně hovoří o peer-to-peer síti a jejích zdrojích, zatímco o superuzlech zde opět nenajdete ni slovo. A dokonce se, i když bez upřesnění, hovoří o „samoozdravných“ mechanismech – které ale bohužel tentokráte nestačily zabránit rychle se šířící nákaze:

Normálně má peer-to-peer síť Skype zabudovanou schopnost  sebe sama uzdravit. Tentokráte ale události odhalily dříve neobjevenou softwarovou chybu v algoritmu pro alokaci síťových zdrojů, která samoozdravným mechanismům zabránila v rychlém zafungování. Bohužel, v důsledku tohoto výpadku (rozpadu), se služba Skype stala nedostupnou pro většinu svých uživatelů skoro po dva dny.

Následuje formulace, která dále "vylučuje cizí zavinění":

Problém byl nyní identifikován výlučně v rámci Skype.

A pak již jen opakovaná deklarace, že nešlo o žádné napadení, a nově také že bezpečnost uživatelů služby nebyla nikdy ohrožena.

Slova omluvy?

Ve zbývající části celého vyjádření už nejde ani tak o technické věci, jako o dopady a důsledky. Ale kdo by čekal nějaké sypání si popela na hlavu a omluvu, případně náznak nějakého odškodnění, bude asi zklamán. Naopak, jakoby v duchu hesla, že nejlepší obranou je útok, se zde lidé od Skypu pyšní vlastními úspěchy, a také poukazují na to, že málokterá technologie garantuje provoz bez přerušení:

Tento výpadek byl bezprecedentní jak svým rozsahem, tak i svými dopady. Chtěli bychom ale poukázat na to, že jen velmi málo technologií či komunikačních sítí dokáže garantovat své fungování zcela bez výpadků.
Jsme velmi hrdi na to, že za čtyři roky svého provozu poskytovala služba Skype technicky spolehlivý komunikační nástroj milionům lidí po celém světě. Skype již identifikoval a zavedl řady vylepšení svého softwaru, které zaručí, že naši uživatelé již nebudou podobně postiženi, za velmi nepravděpodobného opakování nynějšího souběhu událostí.
Komunita uživatelů služby Skype nám vyjadřovala výraznou podporu, a my jsme velmi vděční za všechna jejich povzbuzení.

Stále otevřené otázky

                Osobně nemám ani po důkladném přečtení výše citovaného vyjádření příliš jasno v tom, co přesně se stalo, ani jak to bylo napraveno. Kde vlastně byla softwarová chyba, o které Skype mluvil dříve i nyní? Je v jeho klientech, které fungují buďto jako běžné koncové uzly, nebo jako superuzly? Pokud ano, musel by Skype vydat nový hlavní release svého klienta a postarat se o jeho náležité rozšíření po celém světě. To se zatím nestalo. Nebo má Skype k dispozici nějaké aktualizační mechanismy, skrze které dokáže potřebné změny vnutit svým klientům bez jejich nového stahování a instalace? Něco jako Microsoft update? Nebo ona chyba nebyla nikde v klientech, ale na jeho centrálních přihlašovacích serverech, kde vše může změnit sám?

Ale dost možná, že jsme ještě neslyšeli zdaleka poslední slovo. Třeba i od nejvyššího vedení společnosti Skype, které dosud jakoby neexistovalo a nesnažilo se napravit pošramocenou pověst své služby a firmy.

Na závěr dvě malé perličky: jeden čtenář na Internetu vtipně zkonstatoval, že služba Skype je vlastně první v historii, kdo „zDDOSoval sám sebe“ (vyřadil sám sebe distribuovaným útokem DOS, od svých vlastních uživatelů). A jiný čtenář si zase povšiml, že příští „záplatovací úterý“ připadá na 11. září 2007 ….


11:30, Jiří Peterka, doplnění: Reakci společnosti Microsoft se mi podařilo získat až po redakční uzávěrce. Je následující:

Windows Update je rutinní služba, prostřednictvím které Microsoft poskytuje svým uživatelům softwarové aktualizace. Bezpečnostní aktualizace z minulého úterý nebyly odlišné od aplikací poskytovaných v jiných měsících. Jak je uvedeno v Skype blogu, výpadek Skype služeb byl způsoben bugem v jejich software. Více podrobností k problému Skypu a naší spolupráci s nimi naleznete ještě na blogu: http://blogs.technet.com/msrc/archive/2007/08/20/questions-about-last-tuesday-s-release-and-skype.aspx.

Obsah tohoto blogu v zásadě říká to samé: že poslední update MS neobsahoval nic neobvyklého, co mohlo přispět ke vzniku celé situace (We confirmed that there is nothing unusual in this month's release that could have contributed to this situation).

Blog také potvrzuje, že obě společnosti byly ve vzájemném kontaktu při řešení problémů minulý týden a doporučuje všem, kteří by narazili na nějaký problém, aby ihned kontaktovali podporu MS.


14:45, Jiří Peterka, doplnění: V dalším příspěvku ve svém firemním blogu Skype upřesnil vazbu svých problémů na Microsoft a jeho updaty. Znovu potvrdil, že neobviňuje Microsoft z toho, co se stalo. Potvrdil také stanovisko Microsoftu, podle kterého na nynější dávce záplat (updatu) z 15. srpna nebylo nic mimořádného - ale že došlo k souběhu více faktorů, které zapříčinily známé problémy služby Skype. Předchozí updaty prý neměly nynější efekt právě proto, že u nich nedošlo k takovémuto souběhu, a "samoozdravné mechanismy" se dokázaly postarat o vše potřebné. Ovšem o jaké "další faktory" v nynějším případě šlo, už nový text nezmiňuje (kromě předchozích zmínek o dříve neobjevené chybě v algoritmu alokování síťových zdrojů).

Konečně se ozvalo také nejvyšší vedení společnosti Skype. Na firemním webu promluvil CEO a zakladatel společnosti Niklas Zennström. Poděkoval za všechna vyjádření podpory od uživatelů a konstatoval, že Skype "je zpět a ještě silnější".