[English]Noch eine kurze Meldung zu einem Problem, welches mit VMware ESXi-Virtualisierungslösungen auftritt, wenn PCI-Passthrough verwendet wird. Dann kommt es beim Herunterfahren der virtuellen Maschinen zu einem Absturz des Hosts.
Problem: Absturz in VMware ESXi
Benutzer von VMwares ESXi-Virtualisierungslösungen leiden darunter, dass diese sporadisch abstürzen. Das Problem tritt unter diversen ESXi-Versionen und -Konstellationen beim Herunterfahren der virtuellen Maschinen (Gast) auf. Ist PCI-Passthrough aktiviert, stürzt der ESXi-Host mit einem Purple Screen of Death (ähnlich dem Windows Blue Screen) ab.
Bei Administrator.de hat vor wenigen Stunden ein Betroffener einen solchen Fall veröffentlicht und den obigen Purple Screen of Death gepostet. Dort findet sich die Aussage, dass das Problem bei älteren PCI-E-Geräten mit ESXi-Hosts auftreten kann.
Der Purple Screen of Death und das TroubleShooting wird auf dieser Webseite näher beschrieben.
Der Fehler tritt seit Jahren auf
Das Fehlerbild wird seit vielen Jahren immer mal wieder auf Internetseiten beschrieben. Hier eine Beschreibung aus dem Jahr 2012. Ich habe auch Fundstellen mit Nvidia-Grafikkarten im Internet gefunden. Dieser Forenthread umfasst mehrere Seiten, die sich mit dem Thema Host-Abstürzt mit Nvidia-Treibern befassen. Ein ähnlicher Thread findet sich hier.
Bei administrator.de ist jemand mit einem ESXi 6.7 U2 von diesen Host-Abstürzen betroffen. Es tritt nicht immer auf, aber immer beim Herunterfahren der Gast-VMs, wenn die PCI-Geräte per Passtrough durchgereicht werden. Zitat:
Das Problem tritt bei allen getesteten ESXi Konstellationen auf, …. Laut anderen Berichten aus dem Netz, soll das Problem bei VMware ESXi 5.5 deutlich weniger auftreten, aber dennoch bei einigen vorhanden sein. ….
Die verwendete Hardware scheint auch keine Rolle zu spielen, da unter anderen Comsumer Boards von MSI, sowie Systeme von Supermicro mit beteiligt waren.
Der Betroffene gibt an, dass laut Forenbeiträgen das Problem jedoch auf ältere PCI-E Geräte begrenzt sei. Er nennt beispielsweise die von ihm eingesetzte AMD Sky500 Grafikkarte (baugleich AMD S7000). Die gehört zur Generation der Radeon HD 7700 HD 7800 Grafikkarten.
Keine Lösung, nur ein Workaround
Der Betroffene vermutet, dass der PCI-E-Bus beim Herunterfahren der VM nicht vollständig zurückgesetzt wird. Eine offizielle Lösung von VMware scheint es nicht zu geben. Ein Workaround besteht darin, die betreffende PCI-E-Geräte vor dem Herunterfahren der VM im Geräte-Manager des Clients zu deaktivieren. Irgend jemand von euch, der von dem Fehler betroffen ist und ggf. einen Fix kennt?
Hallo,
wir hatten auch längere Zeit mit dem Problem des abstürzenden ESXi Hosts zu kämpfen. Wir schleusen eine Nvidia Grid K1 für 3D Funktionen durch.
Der Fehler trat sowohl unter ESXi 5.5 als auch unter 6.5 auf.
Jedoch kam der PSOD vollkommen sporadisch, auch ohne Verwenden der 3D Anwendung und nicht beim Herunterfahren.
Letztendlich verursachte die nicht gerade günstige Grafikkarte, die wir glücklicherweise reklamieren konnten.
LG
da Gaibonbiffe
Reklamieren Rückgabe, oder reklamieren Umtausch gegen ein Ersatzgerät gleiches Modell etc.? Ich frage nur interessehalber, nicht weil betroffen.
Zugegeben, mein letzter PSOD liegt schon länger zurück 4.1 oder so und hatte eine falsche Einstellung im UEFI-BIOS als Ursache.
Vollkommen unerwartet haben wir die Karte reklamiert bekommen. D.h. ohne uns das Leben mit dem Auslesen irgendwelcher Logs, dumps o.ä. hat uns der Lieferant eine neue Karte zur Verfügung gestellt. Seit dem Tausch läuft das System ohne Ausfälle.
@gaibonbiffe:
Interessant, da es so herum doch eher nach Hardware(defekt) klingt.
@generell:
Ich weiß auch nicht was „Die verwendete Hardware scheint auch keine Rolle zu spielen, da unter anderen Comsumer Boards von MSI, sowie Systeme von Supermicro mit beteiligt waren.“ für eine Aussage sein soll. So beliebig ist VMware in der Hardwareunterstützung nun auch wieder nicht und in der Firma sollte man eigentlich weniger auf Consumerhardware setzen, sofern einem der reibungslose Betrieb wichtig ist.
Hallo Henry,
das ist meiner Meinung nach sogar eine sehr wichtige Aussage, wenn sich dies bestätigen sollte. Da auch mein DL560 G8 mit ESXi Image von HP unter diesen Abstürzen leidet. Dabei kann man glaube nicht von Consumerhardware sprechen und vom reibungslosen Betrieb. Das ist meiner Meinung nach ein Phänomen, was jeden treffen kann.
Hallo,
ich war gerade überrascht ein Statement zu meinem Beitrag auf Google vorgeschlagen zu bekommen. Dennoch freut es mich und ich muss eine Berichtigung in deinem Beitrag anmerken.
Das Workaround ist nicht das Gerät im Host zu deaktivieren sondern in der VM unter Windows. Nicht dass das falsch rüber kommt. Für Linux habe ich keine Tests durchgeführt, da mein Wissen in der Hinsicht zu Begrenzt ist.
Beste Grüße
Tony
@Tony: Hab das mit dem VM-Client korrigiert – danke für den Hinweis.