Note de ce sujet :
  • Moyenne : 0 (0 vote(s))
  • 1
  • 2
  • 3
  • 4
  • 5
Proxmox arrêt intempestif d'une VM avec HA
#1
Sous Proxmox, j'ai des arrêts intempestifs du serveur d'une VM avec HA.
Le NUC semble chauffer excessivement, et arrête le serveur. Celui-ci reste allumé. Mais je dois l'éteindre physiquement, puis le redémarrer.
Mon ancien serveur Lifedomus me faisait la même chose, et il est mort depuis 3 semaines.
Je ne sais pas ce que je dois surveiller pour comprendre mon problème??

Dernière installation sur la VM HA: intégration Huawei solar avec communication en Modbus.
Je peux tester de revenir à une VM de HA stable??
Dernier redémarrage avec arrêt au bout de 5 minutes.
Où puis-je surveiller la T° de mon NUC??

Merci pour votre aide.
Répondre
#2
Salut

Ben déja si la machine chauffe excessivement peut-être faire une vérification hardware de l'état de la ventil et dépoussièrer la machine non ?
Je ne connais pas Proxmox mais tu pourrais monitorer les points importants de la machine Hote (via Webmin par exemple qui te donne la charge cpu et mémoire) ou Glances qui t'en dira encore plus Wink

Vincèn
Répondre
#3
Mon NUC est récent, pas de trace de poussières.
Proxmox me donne la charge cpu et mémoire, juste avant plantage.
J'aimerais pouvoir suivre la T° du CPU???
Comment utiliser Glances ???
Répondre
#4
Bonjour
Il va falloir faire un peu de ligne de commande.
Tu ouvres une session SSH (soit avec un outil du Style Putty, Mobaxtem, mRemoteNG...) soit via l'interface WEB (Selectionne ton Noeud Proxmox (Pas une VM) puis bouton Shell en haut.

Ensuite :

Code :
apt update
apt install lm-sensors
sensors

Rappel : Au passage pour faire des Mise a jour sous proxmox il faut désactivé les repo enterprise qui sont payant et basculé sur les repos gratuit a moins d'avoir un contrat en cours de validité.

Ensuit toujours dans la console on tape : sensors

Code :
root@pvec2H4Plus:~# sensors
acpitz-acpi-0
Adapter: ACPI interface
temp1:         +0.0°C

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 0:        +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 1:        +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 2:        +51.0°C  (high = +105.0°C, crit = +105.0°C)
Core 3:        +51.0°C  (high = +105.0°C, crit = +105.0°C)

Suivant la machine on aura plus ou moins de sonde, ici ca correspond a mon CPU (qui se tourne les pousses)
Avec une machine contenant des NVMe on peut avoir plus de sonde comme ici : 


Code :
root@pve2AsustorNVME:~# sensors
nvme-pci-1300
Adapter: PCI adapter
Composite:    +37.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0700
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)

enp1s0-pci-0100
Adapter: PCI adapter
PHY Temperature:  +57.0°C
MAC Temperature:  +57.0°C

nvme-pci-0400
Adapter: PCI adapter
Composite:    +36.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +36.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +40.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)

nvme-pci-0c00
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +76.8°C)
             (crit = +79.8°C)

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +27.8°C

nvme-pci-1200
Adapter: PCI adapter
Composite:    +36.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0600
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +38.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +60.0°C  (high = +105.0°C, crit = +105.0°C)
Core 0:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 1:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 2:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 3:        +54.0°C  (high = +105.0°C, crit = +105.0°C)

nvme-pci-0500
Adapter: PCI adapter
Composite:    +37.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +40.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)

nvme-pci-0a00
Adapter: PCI adapter
Composite:    +43.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0b00
Adapter: PCI adapter
Composite:    +46.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

Dans ca cas il faut chercher ou se trouve l'info du CPU.

Fait attention si ta machine reboot a cause d'une surchauffe c'est pas bon signe et ca ne vient pas de Proxmox.
Il doit y avoir un problème.

J'ai pas encore fait, mais il faudrait que je fasse quelques recommandation pour le choix de machine, car je vois certains choix a droite et a gauche sur le forum ou YT que je trouve pas trop judicieux (en terme de sécurité)


Les résultats que j'ai indiqué fonctionne sur du Intel, avec du AMD il me semble que le resultat est différent.
Mais si c'est bien un NUC ca doit être ok pour toi.

Faut que j'essaie sur une de mes machine en AMD mais là elle est pas sous tension.
KNX Partner Base / Avancé

Ma boite de MP est pleine, merci de créer un post si vous avez une question, cela profitera a tout le monde.
Répondre
#5
Suite à la réponse de vincen, j'ai soufflé le ventilateur du NUC et pas mal de poussière en est sorti.
J'avais une instabilité du réseau, et j'ai fait un redémarrage du switch Cisco et de ma Freebox, tout semble rentré dans l'ordre. Pas d'arrêt intempestif pour l'instant. Je croise les doigts.
Dans la bataille, j'ai perdu la communication avec le dongle de ma nouvelle installation photovoltaïque Huawei.
Quand ca se met à délirer???

Filou59: Mon NUC  est un Intel, je vais tester ce que tu proposes.

Sinon en question subsidiaire, je dois réinstaller mon module GCE ELECTRONICS - Interface Téléinformation USB pour compteur électrique Linky.
Je n'ai jamais relié une VM sous proxmox avec un port USB physique de la machine hôte.
Un lien vers un tuto serait le bien venu.

Merci pour votre aide.
Répondre
#6
Avec sensors, j'ai à l'heure actuelle ce retour:

Code :
root@pve:~# sensors
iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:            N/A

pch_cannonlake-virtual-0
Adapter: Virtual device
temp1:        +58.0°C

acpitz-acpi-0
Adapter: ACPI interface
temp1:       -263.2°C
temp2:        +27.8°C  (crit = +119.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +76.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +63.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +67.0°C  (high = +100.0°C, crit = +100.0°C)

nvme-pci-3b00
Adapter: PCI adapter
Composite:    +37.9°C  (low  = -273.1°C, high = +84.8°C)
                      (crit = +84.8°C)
Sensor 1:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +33.9°C  (low  = -273.1°C, high = +65261.8°C)

Je pense que ma machine ne reboot pas.
Hier, elle me renvoie juste que la communication avec le serveur est failed.
la solution est d'éteindre physiquement le NUC qui était bouillant, le laisser refroidir puis le redémarrer.
Répondre
#7
Quand tu dis que ta machine ne reboot pas , laquelle ?
Ton proxmox ?
Ta VM ?

76° ca me parrait chaud, c'est pas normal.
Est-ce que le radiateur est bien fixé ?
Est-ce qu'il y a un ventillateur ? Il est pas bloqué ? il tourne bien ?

Parfois on peut changer le patte thermique dorigine qui est de qualité moyenne.
KNX Partner Base / Avancé

Ma boite de MP est pleine, merci de créer un post si vous avez une question, cela profitera a tout le monde.
Répondre


Atteindre :


Utilisateur(s) parcourant ce sujet : 1 visiteur(s)