[English]Ein Zähler in der Firmware bestimmter HPE SSD Storage-Systeme kann in den kommenden Tagen überlaufen und so für Datenverluste und einen Ausfall des System sorgen. Der Hersteller HPE warnt vor diesem Szenario und fordert Administratoren der Geräte zu einem Firmware-Update auf.
Datenverlust nach 32.768 Betriebsstunden
HPE wurde von einem Solid State Drive (SSD)-Hersteller über einen Firmware-Defekt informiert. Dieser betrifft bestimmte SAS-SSD-Modelle, die in einer Reihe von HPE-Server- und Speicherprodukten verwendet werden. Betroffen sind HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 und StoreVirtual 3200. Nutzer der HPE-Systeme 3PAR, Nimble, Simplivity, XP und Primera sind (laut heise) nicht betroffen.
In den betroffenen HPE SSD-Speichermedien läuft in der Firmware ein Zähler für die Betriebsstunden mit. In der auf den Geräten vorhandenen SSD-Firmwareversion kommt es nach 32.768 Betriebsstunden zu einem Laufwerksausfall und Datenverlust. Dies erfordert eine Wiederherstellung von Daten aus dem Backup. Die Verwendung der Laufwerke in einem fehlertoleranten RAID-Modus (z.B. RAID 1) schützt nicht vor Datenverlust, wenn mehr Laufwerke ausfallen, als vom logischen Laufwerk im fehlertoleranten RAID-Modus unterstützt wird. Dieses Szenario ist wahrscheinlich, das die SSDs im RAID-Verbund fast gleichzeitig die Betriebsstunden erreichen und ausfallen.
HPE hat eine aktualisierte HPD8-Firmware bereitgestellt, die das Problem lösen soll. Das Firmware-Update gilt als kritischer Fix und ist erforderlich, um das oben beschriebene Szenario zu verhindern. HPE empfiehlt Administratoren dringend die sofortige Anwendung dieses kritischen Fixes.
Das Ganze betrifft folgende Geräte
Das Problem betrifft SSDs mit einer HPE-Firmwareversion vor HPD8, die bei 32.768 Betriebsstunden (d.h. 3 Jahre, 270 Tage, 8 Stunden) zum Ausfall der SSD führt. Nach dem Auftreten des SSD-Ausfalls können weder die SSD noch die Daten wiederhergestellt werden. Darüber hinaus werden SSDs, die zur gleichen Zeit in Betrieb genommen wurden, wahrscheinlich fast gleichzeitig ausfallen.
HP hat eine Warnung mit dem Titel HPE SAS Solid State Drives – Critical Firmware Upgrade Required for Certain HPE SAS Solid State Drive Models to Prevent Drive Failure at 32,768 Hours of Operation zu diesem Sachverhalt veröffentlicht. In diesem Dokument findet sich eine Tabelle mit einer Liste der betroffenen SSD-Laufwerke. Auf der Webseite finden sich auch Informationen und Download-Links, um eine Aktualisierung der Firmware unter Linux, Windows und VMware ESXi vorzunehmen.
Vollkrank! Einfach nur noch vollkrank.
Diesen Hersteller muss man meiden.
> … in einem fehlertoleranten RAID-Modus (z.B. RAID 0)
Äh, nein, RAID-0 (Stripe) ist nicht fehlertolerant, denn fällt ein Laufwerk aus, ist das gesamte RAID weg. Gemeint war wohl RAID-1 (Mirror) oder die höheren RAID-Modi.
Grüße
Letzten Freitag bei nem Kunden erlebt – 4 SSD gleichzeitig Offline. Da kam Spass auf.
Das Problem, HP selber kann nichts dafür – ist der „Vorlieferant“ – man kann auf den SSD nur nix erkennen, wer es ist. Zu der Zeit gab es leider noch keinen Patch. HP hat sogar fast zeitgleich den Kunden angerufen – da war es aber quasi gerade schon zu spät.
HEISE:
„Ein Fehler in der SSD-Firmware sorgt dieses Mal für einen Datenverlust nach exakt 40.000 Betriebsstunden. Updates stehen bereit… HPE ist laut eigenen Angaben nicht der einzige Anbieter, der von dem Problem betroffen ist.“
https://www.heise.de/newsticker/meldung/HPE-warnt-erneut-vor-SSD-Ausfaellen-4689921.html