ASUS P9D-M, ASMB7-IKVM und die falschen vCenter-Alarme
Mit großer Verwunderung habe ich nach Inbetriebnahme meiner neuen Lab-Hardware zur Kenntnis genommen, dass die ESXi-Hosts einen kritisichen CPU-Lüfteralarm generieren. Seltsam, immerhin wurde der CPU-Lüfter korrekt angeschlossen - sonst würden sich die Systeme auch aus Sicherheitsgründen ausschalten. 🙂
Ein Blick in die IPMI Web-Oberfläche verriet, dass zwar ein Lüfter verbaut wurde - aber wieso heißt dieser "FRNT_FAN1
"?
In der entsprechenden Übersicht von vCenter Server spiegelte sich das auch soweit wieder:
Sämtliche nicht angeschlossene Lüfter und Temperatur-Sensoren werden als Alarm geführt. Ich habe zuerst vermutet, dass dieser Umstand den Alarm generiert und über einen Linux-Rechner mit ipmitool Schwellwerte analysiert:
1# ipmitool -H myesxi.domain.loc -U admin sdr type Fan
2Password:
3CPU_FAN1 | A0h | lnr | 0.0 | 0 RPM
4FRNT_FAN1 | A2h | lnr | 0.0 | 0 RPM
5FRNT_FAN2 | A3h | lnr | 0.0 | 0 RPM
6FRNT_FAN3 | A4h | ok | 0.0 | 800 RPM
7FRNT_FAN4 | A5h | lnr | 0.0 | 0 RPM
8
9# ipmitool -H myesxi.domain.loc -U admin sensor get "FRNT_FAN1"
10Password:
11Locating sensor record...
12Sensor ID : FRNT_FAN1 (0xa2)
13 Entity ID : 0.0 (Unspecified)
14 Sensor Type (Threshold) : Fan (0x04)
15 Sensor Reading : 0 (+/- 0) RPM
16 Status : Lower Non-Recoverable
17 Nominal Reading : 4480.000
18 Normal Minimum : 1040.000
19 Normal Maximum : 17920.000
20 Upper non-recoverable : 20000.000
21 Upper critical : 18960.000
22 Upper non-critical : 18000.000
23 Lower non-recoverable : 0.000
24 Lower critical : 0.000
25 Lower non-critical : 0.000
26 Positive Hysteresis : 80.000
27 Negative Hysteresis : 80.000
28 Minimum sensor range : Unspecified
29 Maximum sensor range : Unspecified
30 Event Message Control : Per-threshold
31 Readable Thresholds : lnr lcr lnc unc ucr unr
32 Settable Thresholds : lnr lcr lnc unc ucr unr
33 Threshold Read Mask : lnr lcr lnc unc ucr unr
34 Assertion Events : lnc- lcr-
35 Assertions Enabled : lnc- lcr-
36 Deassertions Enabled : lnc- lcr-
Die nicht angeschlossenen Lüfter generieren einen Alarm mit der Gewichtung lnr
(lower non-recoverable) - also ein nicht korrigierbarer, zu niedriger Wert. Über ipmitool lassen sich Schwellwerte lesen und ändern, jedoch sind keine negativen Werte möglich. Ein Gedanke war es, die nicht vorhandenen Lüftersensoren mit negativen Schwellwerten zu versehen, um den Alarm zu stoppen:
1# ipmitool -U admin -H myesxi.domain.loc sensor thres "FRNT_FAN1" -- "-1" "-1" "-1"
2Password:
3Valid threshold '-1' for sensor 'FRNT_FAN1' not specified!
4...
In meinem Setup (ASUS P9D-M und ASMB7-IKVM) ist es auch nicht möglich, nicht benötigte Sensoren abzuschalten.
Zurück zur anderen Auffälligkeit - dem falschen Lüfternamen. Ein Blick auf das Mainboard verriet, dass der CPU-Lüfter definitiv in der "CPU_FAN1
"-Buchse steckte. Nach einigem Herumprobieren stellte sich heraus, dass der Anschluss "FRNT_FAN1
" letztendlich von IPMI als "CPU_FAN1
" erkannt wird:
Und damit erlosch auch der Hosthardware-Alarm in ESXi bzw. vCenter.
Schlussendlich hat das geholfen, den Fehler zu beheben. Die nicht angeschlossenen Lüfter und Sensoren werden zwar weiterhin als Fehler aufgelistet, generieren jedoch keinen Alarm. Es wurden tatsächlich einfach die Lüfteranschlüsse auf dem Mainboard falsch beschriftet. Eventuell hängt das aber auch mit dem letzten Firmware-Update der IPMI-Karte ASMB7-IKVM zusammen - ich bilde mir ein, dass ich diese Fehlalarme vor dem Update noch nicht hatte. Da ich jedoch relativ kurzfristig nach der Installation von ESXi das Firmware-Update installiert habe, kann ich das nicht nachstellen.