Un mémo sur comment résoudre les alertes de type Warning Physical Disk status is ‘nonCritical ou is Online, Not Certified lors d’une vérification de l’état des disques d’un serveur Dell supervisé par Centreon.
Ce type d’alerte est dû à une mauvaise version ou absence du firmware du disque dur, qui a été remplacé dans le serveur. Dans le cas présent, quatre disques d’un serveur ont été changés par de plus grandes capacités. Suite au changement de ces disques, une alerte de type Warning est apparu dans ma plateforme de supervision :
nb : la solution que je propose est une alternative à l’opération lourde d’installation ou de mise à jour des firmwares des disques. Si le jour vous êtes amené à appeler le service client de Dell, généralement ils vous répondrons de mettre à jour les firmwares avant toutes interventions de leur part.
- Exemple d’installation d’un firmware via la carte iDRAC : https://memo-linux.com/proxmox-intel-ethernet-10g-2p-x520/
Vérification du statut des disques sur le serveur
A savoir, pour la supervision du matériel d’un serveur Dell, j’utilise le plugin centreon_plugins, qui s’appuie sur Openmanage.
Afin de mieux cerner le problème, je vais réaliser plusieurs tests, car d’après le statut détaillé de l’alerte mes disques sont juste dans un état « nonCritical ».
- Test avec le plugin centreon_plugins.pl :
cd /usr/lib/nagios/plugins/centreon-plugins/ ./centreon_plugins.pl --plugin=hardware::server::dell::openmanage::snmp::plugin --mode=hardware --hostname PVE-77 --component 'physicaldisk'
WARNING:
Physical Disk ‘Physical Disk 0:1:4’ status is ‘nonCritical’ –
Physical Disk ‘Physical Disk 0:1:5’ status is ‘nonCritical’ –
Physical Disk ‘Physical Disk 0:1:6’ status is ‘nonCritical’ –
Physical Disk ‘Physical Disk 0:1:7’ status is ‘nonCritical
Le message n’est pas très parlant, car il n’indique que les disques sont juste dans un état non critique. Comme dans l’interface web, normale vue que c’est ce plugin qui est utilisé.
cd /usr/lib/nagios/plugins/check_openmanage/ ./check_openmanage -H PVE-77
Physical Disk 0:1:4 [Seagate ST4000NM0023, 4.0TB] on ctrl 0 is Online, Not Certified
Physical Disk 0:1:5 [Seagate ST4000NM0023, 4.0TB] on ctrl 0 is Online, Not Certified
Physical Disk 0:1:6 [Seagate ST4000NM0023, 4.0TB] on ctrl 0 is Online, Not Certified
Physical Disk 0:1:7 [Seagate ST4000NM0023, 4.0TB] on ctrl 0 is Online, Not Certified
Le message est plus clair, les disques sont en ligne mais ne sont pas certifiés.
Désactiver la vérification des disques certifiés par Dell sur le serveur à supervisier
Pour désactiver la certification des disques par Dell, il suffit de changer la valeur yes
par no
de la variable NonDellCertifiedFlag
dans le fichier stsvc.in
, puis relancer le service dataeng
.
Ces opération sont à faire sur le serveur à superviser.
- Changer la valeur
yes
parno
dans le fichierstsvc.ini
:sed -i '/^NonDellCertifiedFlag=/s/yes/no/' /opt/dell/srvadmin/etc/srvadmin-storage/stsvc.ini
- Redémarrer le service
dataeng
:systemctl restart dataeng
- ou :
service dataeng restart
./centreon_plugins.pl --plugin=hardware::server::dell::openmanage::snmp::plugin --mode=hardware --hostname PVE-77 --component 'physicaldisk'
OK: All 8 components are ok [8/8 physical disks].
C’est justement ce que je recherchais.