Microsoft nedbrud skyldes Azure DNS-servere

Microsoft april
Nye data viser, at Microsofts seneste nedbrud var forårsaget af overbelastede Azure DNS-servere.

Microsoft har afsløret, at torsdagens verdensomspændende nedbrud var forårsaget af en kodefejl, der gjorde det muligt for Azure DNS-tjenesten blev overbelastet og efterfølgende ikke var i stand til at svare på DNS-forespørgsler.

Kl. 17:21 EST torsdag oplevede Microsoft globale problem, der forhindrede brugere i at få adgang til eller logge på adskillige tjenester, herunder Xbox Live, Microsoft Office, SharePoint Online, Microsoft Intune, Dynamics 365, Microsoft Teams, Skype, Exchange Online, OneDrive, Yammer, Power BI, Power Apps, OneNote, Microsoft Managed Desktop og Microsoft Streams.

status-page-outage.jpg

Source: Twitter


Problemet var så alvorligt inden for Microsofts infrastruktur, at selv deres Azure-statusside, som bruges til at levere status om tjenesterne, var utilgængelig.

Microsoft havde fixet problemet kl. 18:30 EST, selvom visse tjenester havde lidt problemer med at komme op i gear.

Microsoft forklarede efterfølgende, at afbrydelsen skyldtes et DNS-problem, men frigav ikke yderligere oplysninger til hvordan problemet opstod, på daværende tidspunkt.


Azure DNS-tjenesten blev overbelastet

I går aftes offentliggjorde Microsoft en såkaldt ”root cause analysis” (RCA) for denne uges udfald og forklarede, at den skyldtes, at deres Azure DNS-tjeneste blev overbelastet.

Microsofts Azure DNS er et globalt netværk af redundante navneservere, der skal resultere i høj tilgængelighed og hurtige DNS-tjenester.

Ifølge Microsoft begyndte Azure DNS-tjenesten at modtage en "uregelmæssig bølge" af DNS-forespørgsler fra hele verden, der var målrettet mod bestemte domæner, der var hostet på Azure. Mens Microsoft ikke forklarer, hvad denne uregelmæssige oversvømmelse af kald var, kan det have været et DDoS-angreb rettet mod bestemte domæner.

Microsoft siger, at deres DNS-service typisk kan håndtere et stort antal anmodninger gennem DNS caching og routing af trafik. En kodefejl forhindrede imidlertid deres DNS Edge-caches i at fungere korrekt.

"Azure DNS servers experienced an anomalous surge in DNS queries from across the globe targeting a set of domains hosted on Azure. Normally, Azure’s layers of caches and traffic shaping would mitigate this surge. In this incident, one specific sequence of events exposed a code defect in our DNS service that reduced the efficiency of our DNS Edge caches."

"As our DNS service became overloaded, DNS clients began frequent retries of their requests which added workload to the DNS service. Since client retries are considered legitimate DNS traffic, this traffic was not dropped by our volumetric spike mitigation systems. This increase in traffic led to decreased availability of our DNS service,", lyder det fra RCA rapporten.

Da næsten alle Microsoft-domæner resolves via Azure DNS, var det ikke længere muligt at resolve værtsnavne på disse domæner og få adgang til tilknyttede tjenester, når DNS-tjenesten blev overbelastet.

For eksempel bruger xboxlive.com-domænet følgende Azure DNS-navneservere til at løse værtsnavne på dette domæne:

NS1-205.AZURE-DNS.COM

NS2-205.AZURE-DNS.NET

NS3-205.AZURE-DNS.ORG

NS4-205.AZURE-DNS.INFO

Da xboxlive.com er hostet på Azure DNS, og denne tjeneste blev utilgængelig, kunne brugerne ikke længere logge ind på Xbox Live.

For at forhindre denne type nedbrud i fremtiden, siger Microsoft, at de retter kodefejlen i Azure DNS, så DNS-cachen kan håndtere større mængder af anmodninger. De planlægger også at forbedre overvågningen og afbødningen af unormal trafik.


Source & Image credit:

Microsoft

Vores partnere