Foursquare, Quora, Reddit, Paper.ly, a z naszych startupów, choćby AdTaily. To co łączy te serwisy to całkowita zależność od usług cloud computing dostarczanych przez amerykańską firmę Amazon. Dziś mogliśmy się o tym przekonać – wszystkie te strony padły na pół dnia przez poważny błąd w chmurze.
Wymienione serwisy to tylko kilka najgłośniejszych internetowych startupów dotkniętych przez błędy Amazona. Z usług typu cloud computing serwowanych przez firmę korzystają miliony przedsiębiorstw na całym świecie, część z nich jest całkowicie zależna od infrastruktury Amazon, do tego stopnia, że błąd taki jak dzisiejszy powoduje faktyczne wyłączenie dużej części Internetu.
Outage dotyczył m.in Elastic Compute Cloud (EC2) i Relational Database Service (RDS). Na stronie statusu AWS można na bieżąco obserwować aktualny progres prac. Tak wyglądały komunikaty wysyłane przez zespół Amazona pracujący dziś nad naprawą usterki:
1:48 AM PDT We are currently investigating connectivity and latency issues with RDS database instances in the US-EAST-1 region.
2:16 AM PDT We can confirm connectivity issues impacting RDS database instances across multiple availability zones in the US-EAST-1 region.
3:05 AM PDT We are continuing to see connectivity issues impacting some RDS database instances in multiple availability zones in the US-EAST-1 region. Some Multi AZ failovers are taking longer than expected. We continue to work towards resolution.
4:03 AM PDT We are making progress on failovers for Multi AZ instances and restore access to them. This event is also impacting RDS instance creation times in a single Availability Zone. We continue to work towards the resolution.
Oczywiście serwisy internetowe padały i padać będą, niezależnie od tego czy korzystają z Amazon Web Services, czy hostują się samodzielnie. Warto jednak zastanowić się kilkukrotnie zanim oddamy kluczową część naszej infrastruktury firmie zewnętrznej, a przede wszystkim, warto pomyśleć o planie B na taką ewentualność.