Amazon legt het internet bijna plat
Een obscure fout in de cloud van Amazon Web Services legde maandag grote delen van het internet lam. De storing begon in de ochtend en zorgde voor uitval bij diensten die miljoenen mensen dagelijks gebruiken. Tegen de avond, zo’n vijftien uur later, meldde AWS dat het probleem was verholpen. Toch bleven sommige klanten nog haperingen zien.
De kern van de storing
De storing werd teruggeleid naar een fout in de DNS resolutie in het datacenter in Noord Virginia. Juist daar draait een enorm deel van de wereldwijde internetdiensten op AWS. Een hapering in die laag, die vertaalt welke naam bij welk adres hoort, trok componenten onderuit die afhankelijk zijn van snelle, betrouwbare naamomzetting. Het begon in DynamoDB, de database dienst van AWS, maar de impact reikte verder dan klanten die die database zelf gebruiken.
De kettingreactie
Omdat talloze diensten op dezelfde control laag leunen, ontstond een cascade. Diensten die niets met DynamoDB doen, vielen tóch uit doordat interne afhankelijkheden stukliepen. Chat en videoplatforms gingen op zwart of degradeerden. Handelsplatformen hapten naar lucht. Grote nieuwssites en apps zagen hun verkeersstromen instorten. Het internet bleek minder gedistribueerd dan we graag geloven.
Waarom dit telt
AWS heeft ruwweg een derde van de cloudmarkt in handen. Als één fout in één regio in Virginia wereldwijd tot chaos leidt, dan is de vraag niet of dit nog eens gebeurt, maar wanneer en hoe zwaar. De economische schade van urenlange uitval loopt snel op, van misgelopen advertenties tot vastgelopen betalingen en handel. Belangrijker nog: vertrouwen krijgt een deuk wanneer basale functies onverwacht wegvallen.
De les voor architectuur
Redundantie is geen sticker op een presentatie, maar een discipline. Multi AZ binnen één regio is niet genoeg als de control laag een single point of failure vormt. Multi region en zelfs multi cloud zijn geen modewoorden meer, maar concrete maatregelen: onafhankelijke DNS, gescheiden identiteitslagen, fallbacks voor service discovery en actieve oefeningen waarin je de primaire route bewust uitzet.
Wat organisaties nu kunnen doen
Maak een inventaris van alles dat aan DNS, service discovery en secrets hangt. Test expliciet je uitwijk voor toestemming en configuratie, niet alleen voor compute en storage. Zet een minimale bedrijfsmodus klaar waarin je kernfuncties zonder toeters en bellen blijven draaien. Publiceer na interne oefeningen een kort, publiek draaiboek voor klanten: wat valt uit, wat blijft werken en wanneer schakel je om.
Maandag liet zien hoe dun de scheidslijn is tussen soepel draaiende cloud en stille schermen. De cloud is geen magisch vangnet, maar andermans datacenter met je eigen verantwoordelijkheid erbovenop. Wie die verantwoordelijkheid serieus neemt, bouwt vanaf vandaag voor fouten in de control laag—alsof ze morgen opnieuw gebeuren.