Forum KNX francophone / English KNX forum
Proxmox arrêt intempestif d'une VM avec HA - Version imprimable

+- Forum KNX francophone / English KNX forum (https://www.knx-fr.com)
+-- Forum : Français (https://www.knx-fr.com/forumdisplay.php?fid=3)
+--- Forum : Logiciels libres (linknx, knxweb, pKNyX,...) (https://www.knx-fr.com/forumdisplay.php?fid=10)
+---- Forum : Proxmox (https://www.knx-fr.com/forumdisplay.php?fid=25)
+---- Sujet : Proxmox arrêt intempestif d'une VM avec HA (/showthread.php?tid=8531)



Proxmox arrêt intempestif d'une VM avec HA - richardpub - 14/06/2024

Sous Proxmox, j'ai des arrêts intempestifs du serveur d'une VM avec HA.
Le NUC semble chauffer excessivement, et arrête le serveur. Celui-ci reste allumé. Mais je dois l'éteindre physiquement, puis le redémarrer.
Mon ancien serveur Lifedomus me faisait la même chose, et il est mort depuis 3 semaines.
Je ne sais pas ce que je dois surveiller pour comprendre mon problème??

Dernière installation sur la VM HA: intégration Huawei solar avec communication en Modbus.
Je peux tester de revenir à une VM de HA stable??
Dernier redémarrage avec arrêt au bout de 5 minutes.
Où puis-je surveiller la T° de mon NUC??

Merci pour votre aide.


RE: Proxmox arrêt intempestif d'une VM avec HA - vincen - 14/06/2024

Salut

Ben déja si la machine chauffe excessivement peut-être faire une vérification hardware de l'état de la ventil et dépoussièrer la machine non ?
Je ne connais pas Proxmox mais tu pourrais monitorer les points importants de la machine Hote (via Webmin par exemple qui te donne la charge cpu et mémoire) ou Glances qui t'en dira encore plus Wink

Vincèn


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 14/06/2024

Mon NUC est récent, pas de trace de poussières.
Proxmox me donne la charge cpu et mémoire, juste avant plantage.
J'aimerais pouvoir suivre la T° du CPU???
Comment utiliser Glances ???


RE: Proxmox arrêt intempestif d'une VM avec HA - filou59 - 14/06/2024

Bonjour
Il va falloir faire un peu de ligne de commande.
Tu ouvres une session SSH (soit avec un outil du Style Putty, Mobaxtem, mRemoteNG...) soit via l'interface WEB (Selectionne ton Noeud Proxmox (Pas une VM) puis bouton Shell en haut.

Ensuite :

Code :
apt update
apt install lm-sensors
sensors

Rappel : Au passage pour faire des Mise a jour sous proxmox il faut désactivé les repo enterprise qui sont payant et basculé sur les repos gratuit a moins d'avoir un contrat en cours de validité.

Ensuit toujours dans la console on tape : sensors

Code :
root@pvec2H4Plus:~# sensors
acpitz-acpi-0
Adapter: ACPI interface
temp1:         +0.0°C

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 0:        +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 1:        +50.0°C  (high = +105.0°C, crit = +105.0°C)
Core 2:        +51.0°C  (high = +105.0°C, crit = +105.0°C)
Core 3:        +51.0°C  (high = +105.0°C, crit = +105.0°C)

Suivant la machine on aura plus ou moins de sonde, ici ca correspond a mon CPU (qui se tourne les pousses)
Avec une machine contenant des NVMe on peut avoir plus de sonde comme ici : 


Code :
root@pve2AsustorNVME:~# sensors
nvme-pci-1300
Adapter: PCI adapter
Composite:    +37.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0700
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)

enp1s0-pci-0100
Adapter: PCI adapter
PHY Temperature:  +57.0°C
MAC Temperature:  +57.0°C

nvme-pci-0400
Adapter: PCI adapter
Composite:    +36.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +36.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +40.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)

nvme-pci-0c00
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +76.8°C)
             (crit = +79.8°C)

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +27.8°C

nvme-pci-1200
Adapter: PCI adapter
Composite:    +36.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0600
Adapter: PCI adapter
Composite:    +34.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +38.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +34.9°C  (low  = -273.1°C, high = +65261.8°C)

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +60.0°C  (high = +105.0°C, crit = +105.0°C)
Core 0:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 1:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 2:        +54.0°C  (high = +105.0°C, crit = +105.0°C)
Core 3:        +54.0°C  (high = +105.0°C, crit = +105.0°C)

nvme-pci-0500
Adapter: PCI adapter
Composite:    +37.9°C  (low  =  -0.1°C, high = +84.8°C)
                       (crit = +94.8°C)
Sensor 1:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +40.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 8:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)

nvme-pci-0a00
Adapter: PCI adapter
Composite:    +43.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

nvme-pci-0b00
Adapter: PCI adapter
Composite:    +46.9°C  (low  =  -5.2°C, high = +89.8°C)
                       (crit = +93.8°C)

Dans ca cas il faut chercher ou se trouve l'info du CPU.

Fait attention si ta machine reboot a cause d'une surchauffe c'est pas bon signe et ca ne vient pas de Proxmox.
Il doit y avoir un problème.

J'ai pas encore fait, mais il faudrait que je fasse quelques recommandation pour le choix de machine, car je vois certains choix a droite et a gauche sur le forum ou YT que je trouve pas trop judicieux (en terme de sécurité)


Les résultats que j'ai indiqué fonctionne sur du Intel, avec du AMD il me semble que le resultat est différent.
Mais si c'est bien un NUC ca doit être ok pour toi.

Faut que j'essaie sur une de mes machine en AMD mais là elle est pas sous tension.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 15/06/2024

Suite à la réponse de vincen, j'ai soufflé le ventilateur du NUC et pas mal de poussière en est sorti.
J'avais une instabilité du réseau, et j'ai fait un redémarrage du switch Cisco et de ma Freebox, tout semble rentré dans l'ordre. Pas d'arrêt intempestif pour l'instant. Je croise les doigts.
Dans la bataille, j'ai perdu la communication avec le dongle de ma nouvelle installation photovoltaïque Huawei.
Quand ca se met à délirer???

Filou59: Mon NUC  est un Intel, je vais tester ce que tu proposes.

Sinon en question subsidiaire, je dois réinstaller mon module GCE ELECTRONICS - Interface Téléinformation USB pour compteur électrique Linky.
Je n'ai jamais relié une VM sous proxmox avec un port USB physique de la machine hôte.
Un lien vers un tuto serait le bien venu.

Merci pour votre aide.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 15/06/2024

Avec sensors, j'ai à l'heure actuelle ce retour:

Code :
root@pve:~# sensors
iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:            N/A

pch_cannonlake-virtual-0
Adapter: Virtual device
temp1:        +58.0°C

acpitz-acpi-0
Adapter: ACPI interface
temp1:       -263.2°C
temp2:        +27.8°C  (crit = +119.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +76.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +78.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +63.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +67.0°C  (high = +100.0°C, crit = +100.0°C)

nvme-pci-3b00
Adapter: PCI adapter
Composite:    +37.9°C  (low  = -273.1°C, high = +84.8°C)
                      (crit = +84.8°C)
Sensor 1:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +33.9°C  (low  = -273.1°C, high = +65261.8°C)

Je pense que ma machine ne reboot pas.
Hier, elle me renvoie juste que la communication avec le serveur est failed.
la solution est d'éteindre physiquement le NUC qui était bouillant, le laisser refroidir puis le redémarrer.


RE: Proxmox arrêt intempestif d'une VM avec HA - filou59 - 15/06/2024

Quand tu dis que ta machine ne reboot pas , laquelle ?
Ton proxmox ?
Ta VM ?

76° ca me parrait chaud, c'est pas normal.
Est-ce que le radiateur est bien fixé ?
Est-ce qu'il y a un ventillateur ? Il est pas bloqué ? il tourne bien ?

Parfois on peut changer le patte thermique dorigine qui est de qualité moyenne.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 28/08/2025

Encore un souci de serveur qui héberge Proxmox:
Du coup je répète ce qui m'avait été proposé et j'ai ce résultat:

root@pve:~# sensors
iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:            N/A  

pch_cannonlake-virtual-0
Adapter: Virtual device
temp1:        +50.0°C  

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +27.8°C  

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +53.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +53.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +51.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +51.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +52.0°C  (high = +100.0°C, crit = +100.0°C)

nvme-pci-3b00
Adapter: PCI adapter
Composite:    +41.9°C  (low  = -273.1°C, high = +84.8°C)
                       (crit = +84.8°C)
Sensor 1:     +41.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +37.9°C  (low  = -273.1°C, high = +65261.8°C)

ca ne me semble pas anormal??

Parcontre dands le summary de pve, j'ai au niveau du HD:

 / HD space
 
90.36% (48.11 GiB of 53.24 GiB)

Cela pourrait-il être la cause du serveur qui s'arrête?


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 01/09/2025

Pas de sujétion ??
je pense que mon souci vient de l'instalation initiale car j'ai pour PVE:
CPU usage 2.99% of 8 CPU(s)IO delay 0.16%
Load average 0.14,0.26,0.35
RAM usage 80.63% (12.49 GiB of 15.49 GiB)
KSM sharing 408.11 MiB
/ HD space 90.34% (48.10 GiB of 53.24 GiB)
SWAP usage N/A
CPU(s) 8 x Intel® Core™ i5-8259U CPU @ 2.30GHz (1 Socket)

le stockage de pve est:
90.34% (51.65 GB of 57.17 GB) sur un disque alors que j'ai un deuxième disque de 500GB sur le quel j'ai mes VM et mes CT.
Et celui-ci n'est pas du tout saturé






RE: Proxmox arrêt intempestif d'une VM avec HA - filou59 - 01/09/2025

Pourquoi penses tu ca ?
Ton stockage est séparé, sur ton 1er disque il n'y a que Proxmox, sur le 2nd c'est VM ce sont 2 choses bien disctinct.
C'est une bonne facon de faire.

Il faudrait essayer de voir dans les logs pourquoi ca plante, eventuellement y mettre un ecran et voir ce qu'il y a quand ca plante.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 01/09/2025

[img][Image: 25090103453025602918631602.png][/img]il me semble que HD space 90.34% (48.10 GiB of 53.24 GiB) de stockage sur le disque qui héberge pve il ne reste pas grand chose comme place.
Et pour la RAM usage 80.63% (12.49 GiB of 15.49 GiB), ca ne me semble guère mieux.
Bien sûr ca me fait cela quand je suis absent.
Les températures semblent raisonnables


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 01/09/2025

A quel niveau dois-je accéder aux logs??
Je vais tenter de brancher un écran, mais je doute que cela donne grand chose, car quand c'est planté, je dois éteindre physiquement mon NUC et le redémarrer.
J'ai un deuxième NUC de secours prêt à refonctionner pour prendre le relai en cas de souci


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 02/09/2025

En erreur ce matin. je te joins l'erreur affichée par écran sur le NUC.
[img][Image: 25090210102025602918631819.jpg][/img]


RE: Proxmox arrêt intempestif d'une VM avec HA - Ives - 02/09/2025

Bonjour,
L’erreur importante est le système de fichiers EXT4 sur loop0 corrompu.
loop0 correspond souvent à une image (par ex. un fichier .img, une VM ou un container LXC qui monte une image) ; il faudrait lancer un fsck dessus.

Je ne sais ce que tu fais tourner en plus de HA sur ton NUC mais, au risque de me répéter, je ne regrette pas d'être passé d'une installation sous Proxmox à installation HAOS seul sur mon NUC.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 02/09/2025

Peux-tu me guider pour un fsck??
ma RAM usage 80.63% (12.49 GiB of 15.49 GiB)
et mon HD space 90.34% (48.10 GiB of 53.24 GiB) avec de tels % ne sont-ils pas un souci, alors que mon disque secondaire fait 500Go?

Sinon sur tes conseils que je trouve vraiment logique après quelques années d'expérience, j 'ai HA sur un deuxième NUC avec des mises à jour régulière à partir de Nabu Casa.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 02/09/2025

Je suis avec ChatGPT5 qui est en train de me guider...
J'avais déjà des CT qui n'étaient pas sur datapool mais sus local


RE: Proxmox arrêt intempestif d'une VM avec HA - Ives - 02/09/2025

Le plus facile est que tu demandes à chat GPT de te guider pour faire un fsck sur loop0.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 02/09/2025

C’est ce que j’ai fait avec ChatGPT et en fait il m’a fait faire tout le bilan de mon NUC, l’état des disques durs et je suis en train de supprimer tout ce qui servait à rien déplacer les containers qui étaient dans le stockage localpool vers le stockage Datapool et je suis en train d’effacer des fichiers de log et d’archives qui ne servait à rien encore quelques temps de travail, et ça devrait être bon
Pour les gens comme moi c’est vraiment super
Il suffit d’être méthodique
Je ferai une synthèse ici à la fin


RE: Proxmox arrêt intempestif d'une VM avec HA - filou59 - 03/09/2025

(02/09/2025, 09:29:00)Ives a écrit : mais, au risque de me répéter, je ne regrette pas d'être passé d'une installation sous Proxmox à installation HAOS seul sur mon NUC.
Te remarque laisse suggérer que c'est un mauvais choix
C'est comme si je disais mon voisin a eu un prb avec sa voiture Tesla, je ne regrette pas d'avoir un véhicule thermique.

Un machine qui plante peut avoir plein d'origine , j'ai trainé un portable lenovo comme un boulet car il n'arrêtait pas de planter aléatoirement anormalement, j'ai fait plein de test/autotest : CM/RAM/CPU/Video etc sans jamais avoir une seule erreur, au point de m'acheter un autre portable tellement j'en avais mare.

Je suspecté un prb de carte video, un jour par hasard, je reprend le toro par les cornes, je tente de passer par une carte video externe , mais c'est toujours pareil.
Je décide de refaire aussi au passage mon install de windows, je réorganise mes SSD vue que je peux plus les utiliser comme je veux. 

Et puis par hasard je sais plus pourquoi je décide de refaire un test mémoire, mais comme il y a 2 x 2 barrette de RAM je retire un 1er jeu pour le tester dans une petite conf qui me servait pour un des mes proxmox. Vue qu'un test mémoire approfondie dure des plombe ...

Là bizarrement pendant ce temps je me rend compte que la bestiole ne plante plus... alors qu'il le faisait rapidement tous les jours.
Je réalise en fait que ca vient de la mémoire. 
Pourtant ca a marchait, et aucun test n'a jamais rien trouvé.

J'ai 2 Lots de barrettes qui fonctionnent a des vitesses identique mais qui ne fonctionnent plus ensemble.
J'ai racheté un nouveau lot en choisissant le meme fabriquant et la meme vitesse et là ca marche.

En attendant toute mes barrette fonctionne.l


Pour en revenir a Proxmox : J'ai 8 a 10 machines qui ont des Uptime de plusieurs mois, ce qui veut dire aucun plantage, ca reboot uniquement quand je fais une mise a jour de proxmox voir quand je fais le con avec mon onduleur (car je suis en train de me faire une installation PV+Onduleur Hybride).

Alors dire que Proxmox + HA est une mauvaise idée non ce n'est pas vrai.


RE: Proxmox arrêt intempestif d'une VM avec HA - richardpub - 03/09/2025

Pour ma part grâce entre autres à vous deux j’ai fait le choix de Proxmox sur NUC avec un maximum de choses traitées dans KNX plus HA et autres en VM et CT et avec un NUC de secours
Je reste certain que c’est le meilleur choix même si mon métier de base est loin de tout cela
Par contre sans votre aide je ne serai pas là où j’en suis
ChatGPT a bien remis en place les défauts dus à mon manque de compétences et d’expérience


RE: Proxmox arrêt intempestif d'une VM avec HA - Ives - 04/09/2025

(03/09/2025, 21:18:58)filou59 a écrit : Alors dire que Proxmox + HA est une mauvaise idée non ce n'est pas vrai.

Je n'ai pas tes compétences sur Proxmox mais je donne simplement mon avis suite à mon expérience et je n'ai pas dit que Proxmox + HA était une mauvaise idée mais il faut mettre en perspective ses avantages et inconvénients!

J’ai tourné plusieurs années avec Proxmox sur mon NUC, notamment parce que j’avais besoin, en plus de HA et Node Red, d’un LXC pour mon contrôleur Unifi mais depuis que j’ai changé de routeur avec contrôleur intégré, ce besoin a disparu.

Le vrai déclencheur du changement a été une mise à jour Proxmox (un jour où je venais de quitter la maison pour une absence prolongée) qui a planté à cause d’un problème d’incompatibilité réseau entre mon NUC Intel et le kernel utilisé par Proxmox (bug bien connu avec certaines cartes Intel i225/Realtek).

Comme je trouvais également les mises à jour Proxmox et LXC trop nombreuses et contraignantes, j’ai préféré simplifier :
- HAOS en "bare-metal" sur mon NUC : stabilité, moins de couches, moins de maintenance et la compatibilité de la mise à jour des add-on comme Node Red est vérifié lors de mise à jour de HAOS
- Deux sauvegardes automatiques par jour (sur mon NAS) : protection en cas de souci d'une sauvegarde corrompue.
- Installation d'un second NUC avec une version de secours datant d’1 à 2 semaines : je peux basculer rapidement si besoin (et je peux également ouvrir le port du routeur en accès distant si le 1er NUC est HS)

Pour mon usage actuel (uniquement Home Assistant avec add on), c’est la solution la plus simple et la plus fiable. Proxmox reste excellent si on veut héberger plusieurs services, mais dans mon cas il n’apportait plus d’avantage, seulement de la complexité.

Le gros avantage de Proxmox c'est la sauvegarde des VM et LXC qui donne une seconde chance (ceinture et bretelles) dans le cas d'une backup HA corrompu mais j'ai compensé avec deux sauvegardes automatiques par jour (conservées une semaine) et une copie de l'instance (entre n-7 à n-15) sur un autre NUC.


RE: Proxmox arrêt intempestif d'une VM avec HA - filou59 - 07/09/2025

Ta mauvaise expérience lors d'une mise a jour est regrettable, mais elle aurait pu etre éviter je pense.

Déjà on lance jamais de mise a jour sur du materiel quand on est pas sur place, c'est quand même un principe de base.
Ensuite pour les mise a jour , c'est pas du tout une obligation de les faire régulièrement. Proxmox est basé sur du linux et tu peux du coup avoir des mise jour quasi tous les jours.
On est tous ici dans une utilisation dite "Home Lab" , il n'y a pas forcément de péril en la demeure a ne pas faire les mises ajour en temps et en heure.

Il y a plusieurs clan, ceux qui se dise tant que ca marche je fais rien, et ceux qui saute dessus dès que ca sort.
Pour PVE , certains recommande de ne pas sauter sur les 1ere grosse version , par exemple attendre la version X.01 ou X.1 plus de que de passer sur la derniere X.0