Amazon AWS-Cloud-Ausfall sorgt für Chaos (8.12.2021)

[English]Zum heutigen 8. Dezember 2021 gab es eine größere Störung bei den Amazon AWS Services in den USA. Der Amazon Cloud-Dienst war für ca. 8 Stunden gestört, und alle Nutzer, die auf diesen Dienst angewiesen waren, schauten ziemlich in die Röhre. Keine Bestellungen mehr, Alexa, Ring und Disney Plus streikten ebenfalls. Könnte für einige Nutzer ein größeres Drama gewesen sein.

Die Probleme mit den Amazon Web Services begannen um 9:37 Uhr (Pazifik-Zeit), als die Server für die US-Ostküste nur noch langsam Inhalte ausgeliefert haben bzw. Fehler berichteten. Als Ursache für dieses Problem wurde eine Beeinträchtigung mehrerer Netzwerkgeräte in der Region US-EAST-1 identifiziert. Von Amazon gibt es diese Statusmeldungen über den Ausfall.

[RESOLVED] API Error Rates in US-EAST-1

[9:37 AM PST] We are seeing impact to multiple AWS APIs in the US-EAST-1 Region. This issue is also affecting some of our monitoring and incident response tooling, which is delaying our ability to provide updates. We have identified the root cause and are actively working towards recovery.
[10:12 AM PST] We are seeing impact to multiple AWS APIs in the US-EAST-1 Region. This issue is also affecting some of our monitoring and incident response tooling, which is delaying our ability to provide updates. We have identified root cause of the issue causing service API and console issues in the US-EAST-1 Region, and are starting to see some signs of recovery. We do not have an ETA for full recovery at this time.
[11:26 AM PST] We are seeing impact to multiple AWS APIs in the US-EAST-1 Region. This issue is also affecting some of our monitoring and incident response tooling, which is delaying our ability to provide updates. Services impacted include: EC2, Connect, DynamoDB, Glue, Athena, Timestream, and Chime and other AWS Services in US-EAST-1. The root cause of this issue is an impairment of several network devices in the US-EAST-1 Region. We are pursuing multiple mitigation paths in parallel, and have seen some signs of recovery, but we do not have an ETA for full recovery at this time. Root logins for consoles in all AWS regions are affected by this issue, however customers can login to consoles other than US-EAST-1 by using an IAM role for authentication.
[12:34 PM PST] We continue to experience increased API error rates for multiple AWS Services in the US-EAST-1 Region. The root cause of this issue is an impairment of several network devices. We continue to work toward mitigation, and are actively working on a number of different mitigation and resolution actions. While we have observed some early signs of recovery, we do not have an ETA for full recovery. For customers experiencing issues signing-in to the AWS Management Console in US-EAST-1, we recommend retrying using a separate Management Console endpoint (such as https://us-west-2.console.aws.amazon.com/). Additionally, if you are attempting to login using root login credentials you may be unable to do so, even via console endpoints not in US-EAST-1. If you are impacted by this, we recommend using IAM Users or Roles for authentication. We will continue to provide updates here as we have more information to share.
[2:04 PM PST] We have executed a mitigation which is showing significant recovery in the US-EAST-1 Region. We are continuing to closely monitor the health of the network devices and we expect to continue to make progress towards full recovery. We still do not have an ETA for full recovery at this time.
[2:43 PM PST] We have mitigated the underlying issue that caused some network devices in the US-EAST-1 Region to be impaired. We are seeing improvement in availability across most AWS services. All services are now independently working through service-by-service recovery. We continue to work toward full recovery for all impacted AWS Services and API operations. In order to expedite overall recovery, we have temporarily disabled Event Deliveries for Amazon EventBridge in the US-EAST-1 Region. These events will still be received & accepted, and queued for later delivery.
[3:03 PM PST] Many services have already recovered, however we are working towards full recovery across services. Services like SSO, Connect, API Gateway, ECS/Fargate, and EventBridge are still experiencing impact. Engineers are actively working on resolving impact to these services.
[4:35 PM PST] With the network device issues resolved, we are now working towards recovery of any impaired services. We will provide additional updates for impaired services within the appropriate entry in the Service Health Dashboard.

Das Magazin Vice schreibt hier, dass Websites und Online-Dienste (einschließlich Motherboard), die bei Amazon gehostet sind, aufgrund eines anhaltenden Ausfalls der Amazon Web Services weltweit von Ausfällen und technischen Schwierigkeiten betroffen seien. Härter hat es wohl die Amazon-Angestellten getroffen. Hunderte von Amazon-Lagerarbeitern und Lieferfahrern berichteten, dass die Lieferinfrastruktur des Unternehmens zum Stillstand gekommen ist und allgemein im Chaos versinkt. Hintergrund ist, dass die Flex-App, die für kritische Liefervorgänge verwendet wird, und die Dolphin-App, die für die Zeiterfassung und andere Vorgänge verwendet wird, den ganzen Morgen des 8. Dezember ausgefallen waren. Ein Amazon-Mitarbeiter scherzte, dass er momentan mehr als Jeff Bezoz verdiene, weil sein Gehalt weiter gehe, während Amazon Verluste schreibe.

I am making more money than Jeff bezos in this moment

Right now everything is down world wide and I am still getting paid double over time.

Amazon is on stand still so I sure this second alone he is losing $$$$$

Das Medium The Verge hat in diesem Artikel einen breiteren Blick riskiert. Die erwähnen Berichte über Ausfälle bei Disney Plus und Netflix-Streaming sowie bei Spielen wie PUBG, League of Legends und Valorant. Die Redaktion hat auch einige Probleme beim Zugriff auf Amazon.com und andere Amazon-Produkte wie den KI-Assistenten Alexa, Kindle ebooks, Amazon Music und Sicherheitskameras von Ring oder Wyze festgestellt. Die DownDetector-Liste der Dienste mit gleichzeitigen Ausfällen umfasst fast alle bekannten Namen: Tinder, Roku, Coinbase, sowohl Cash App als auch Venmo, und die Liste geht weiter. Der Vorfall zeigt, dass man auch in der Cloud extrem von Ausfällen abhängig ist – und wenn die Cloud steht, sind gleich Millionen Menschen betroffen.

Ergänzungen: Die Kollegen bei heise haben zwei ganz lesenswerte Beiträge Amazons AWS-Cloud fällt aus und die IT-Welt steht (nicht) still und Kommentar: Die Cloud ist ja so schön bequem – es darf nur nirgends was passieren veröffentlicht. Selbst wer nicht in der AWS-Cloud gehostet hatte, konnte über abhängige Dienste in verwendeten Software-Paketen betroffen sein. Auf Facebook gab es einen Kommentar zu meinem Post, wo ein Admin eingestand, dass sie betroffen waren. Beim Versuch, das Hosting auf US-WEST umzuziehen, hätte man neue Zertifikate gebraucht. Eine ganze Reihe dieser Zertifikatsdienste waren aber von AWS abhängig und hosteten auf US-EAST-1. Es zeigt sich, dass da ein Rattenschwanz an Problemen existiert und eigentlich keiner mehr durchblickt. Der Ausfall der ganzen Dienste für Ring-Doorbell-Kamera, Alexa etc. wirft ggf. komplette Sicherheitsarchitekturen aufs Kreuz. Und wenn ich im Artikel Umzug der MagentaCloud: Daten bis 5.12. sichern, ab 6.12. für 3 Tage kein Zugriff mitbekomme, dass Leute richtig Handstände machen müssen und drei Tage nicht in die Magenta-Cloud können, ruft das keine Freude hervor. Keine guten Aussichten.

AWS schon wieder down (15.12.2021)

Zum heutigen 15. Dezember 2021 gab es eine erneute Störung bei den Amazon AWS Services in den USA. Dieser anhaltende Ausfall begann um ca. 7:43 AM Pacific Standard Time (PST) und betraf laut AWS-Statusseite die Regionen US-WEST-1 und US-WEST-2. Der Ausfall zog eine Reihe an Diensten wie Twitch, Zoom, PSN, Doordash, Quickbooks Online und Hulu.

Nachfolgender Tweet zeigt, dass eine Reihe an Webseiten und Diensten von deisem Ausfall betroffen sind.

AWS down

Die Kollegen von Bleeping Computer haben hier einen Artikel zum Ausfall veröffentlicht. AWS-Experten arbeiten sich an der Behebung des Ausfall ab und haben Schritte zur Wiederherstellung unternommen. Auf der AWS-Statusseite hieß es:

Wir haben die Ursache für die Internetverbindung zur Region US-WEST-2 identifiziert und Schritte zur Wiederherstellung der Konnektivität unternommen.

In Europa ist dagegen keine Beeinträchtigung der Dienste auf der Statusseite zu finden.

Dieser Beitrag wurde unter Störung abgelegt und mit , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

10 Antworten zu Amazon AWS-Cloud-Ausfall sorgt für Chaos (8.12.2021)

  1. Jackie sagt:

    Tja und deutsche Provider planen in Zukunft ihr Mobilfunk Netz auf AWS laufen zu lassen. Was kann da schon schief gehen ;) Davon abgesehen das man doch eigentlich auch sein Kerngeschäft aus der Hand gibt!

    • Jackie sagt:

      Oh man wie geil das einzige dämliche MMO das ich spiele ist natürlich auch betroffen :)

      Siehst so aus als könne sich Bethesda wohl keine eigenen Server leisten!

  2. Singlethreaded sagt:

    Hab es gar nicht gemerkt. War mit den Kindern im Wald. Wir haben einen Aussichtsturm bestiegen und ein langen Spaziergang gemacht. Das konnte man ganz ohne Internet :-)

    -> Wenn man betroffen und drauf angewiesen ist, dann ist das natürlich übel.

    • Paul sagt:

      „Das konnte man ganz ohne Internet :-)“
      Und wie habr ihr dann denn wieder nachhause gefunden?

      • Singlethreaded sagt:

        Verrate es bitte keinem, aber im Wald gab es Holzbretter mit Text darauf, welcher auch ohne Strom angezeigt wurde. Diese Holzbretter liefen auf der einen Seite spitz zu und deuteten so in eine Richtung. Im Text war tatsächlich eine Information über erreichbare Zielorte und deren Entferung codiert.
        Die Alten und Weisen im Wald meinten sich zu errinnern, dass diese Holzbretter auch „Schilder“ oder „Wegweiser“ genannt wurden …

        • Ralf S. sagt:

          Schön, dass du selbst geantwortet hast. Ich wollte es eigentlich tun, habe es aber gelassen und so schön wie du hätte ich es eh nicht formuliert… ;-)
          Allerdings:

          „Im Text war tatsächlich eine Information über erreichbare Zielorte und deren Entferung codiert.“

          Diesen „Code“ können wirklich nur noch ganz wenige aufschlussreich und für sich nutzbar entschlüsseln. Meistens die eher Älteren, bis ganz Alten. Und auch nur die, die vor langer Zeit in der Schule sehr gut aufgepasst haben. Und früher gab es auch mal ein (man beachte!) stromloses „Navi“ das nannte sich – glaub ich – Kompass… Das war ganz simpel gebaut und hat einem sehr zuverlässig die vier Himmelsrichtungen angezeigt. Das Gerät war vor allem sehr praktisch und sinnvoll einsetzbar mit sog. „Landkarten“. Die waren auf Papier gedruckt und auch total stromlos und permanent nutzbar. Solche alten Papierkarten gibt es noch hin und wieder – vor allem auch wieder bei den Älteren. Und die sind gerade (!) im Wald noch immer sehr zuverlässig, da sich die Wege dort eher seltener ändern. Aber auch mit den Relikten aus der analogen Welt, wie Kompass und Karten aus Papier, muss man eben umgehen gelernt haben. Die Lehrmeister diesbzgl. sterben allerdings so langsam aus…

          Schönes Wochenende! :-)

  3. SvenS sagt:

    Eigentlich wünsche ich das keinem Unternehmen! – aber dennoch:
    hoffentlich kommt das noch öfter vor – dann merken die die das entschieden haben, das es doch so keine gute Idee war, alles oder tlw. in die GROSSE Cloud (MS, AWS etc.) zu legen.

    Vielleicht war das auch ein Angriff, der erfolgreich war – die brauchten nur so lange, um die Daten wieder herzustellen!

    Und nein, ich habe keinen Aluhut auf! ;-)

    • Kurt sagt:

      Wir fahren in der Firma auch die Philosophie so wenig als möglich, so viel als nötig. Ganz ohne Cloud gehts es leider nicht mehr. Wenn es nach der Geschäftsführung gegangen wäre, wäre mittlerweile alles in der Cloud weil so günstig und einfach planbar im Vergleich zu On Premises Lösungen. „Gottseidank“ aber gibt es genügend Ausfälle im Jahr die in der Richtung ein kleines Umdenken eingeleitet haben.
      Ich kenne Firmen die ihre Mitarbeiter nach Hause schicken können wenn mal AWS, Microsoft Onlinelösungen & Co. für ein paar Stunden ausfallen.

    • Paul sagt:

      Wir, die Entscheider, haben das genau nachrechnen lassen. Die hübsche MS-Vertreterin sagte bei der Besprechung im 1st-Class-Restaurant, das Office 362(c) viiiel sicherer und viel billiger ist als das selbst zu hosten.
      Z.B. kommen in der Cloud die Sicherheits-Updates viel früher.

      Das das nun ausgefallen war stört ja nicht. da es bei unserer Konkurenz und Kunden auch ausgefallen war…

  4. Knusper sagt:

    Ja, die Abhängigkeiten sind immens. Da werden noch ganz andere Fälle auf uns zukommen. Doch ich sehe nicht, wie man das generell vermeiden kann. Die Welt ist vernetzt, nicht nur digital, siehe Containerschiff im Suezkanal.

    Und wer privat schon mal einen bösen Rechnerausfall hatte, wäre froh gewesen, wenn nach 8 Stunden alles wieder lief. Nur mal angemerkt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert