Datacentrum Amazonu na východě Spojených států, v Severní Virginii, takzvané EC2, postihl včera rozsáhlý výpadek, který způsobil nedostupnost nebo omezení dostupnosti řady oblíbených služeb, jež je využívají jako hosting, mezi nimi služeb Reddit anebo Foursquare. Dostupnost se daří obnovovat jen zvolna a postupně.
EC2 je „elastický oblak“, ve kterém lze provozovat takový počet virtuálních serverů, které zrovna potřebujete, a platit podle toho. Díky tomu si tento hosting získal oblibu u nových služeb, které mohou jen těžko předpovědět svůj růst a nemohou si dovolit plýtvat penězi na kapacitu nevyužitou. U Amazon EC2 jde spustit nové instance serverů během několika minut a tak pružně odpovídat na jejich vzrůstající potřebu.
Výpadek především otřásl důvěrou v tento hosting, a v oblačný hosting obecně. U služeb poskytovaných Amazonem se víceméně nepředpokládalo, že by mohly selhat. Slibovaná redundance a fyzické oddělení úložných zón měly přečkat vše, snad kromě konce světa. Ukázalo se však, že oddělené zóny měly přece jen společný bod selhání…
Na počátku byla prý „síťová událost“, která v jedné zóně spustila nadměrné zrcadlení úložných svazků (EBS). To brzy vyčerpalo dostupnou kapacitu zóny. Jenže neúspěšné požadavky na EBS zahltily také jednu řídicí jednotku, a to ovlivnilo výkon požadavků i pro ostatní zóny. Webové služby závisící na postižených zónách tak na čas vypadly úplně.
Provozovatelům webů nezbývá než vrátit se k předpokladu, že (jakýkoli) hosting může selhat, a chtějí‑li výpadkům předejít, a mohou‑li si to dovolit, měli by své služby přece jen stavět tak, aby na jediném hostingu nezávisely.