artiflo, le 29 mai 2011 à 08:52, dit :
Effectivement 120/200s c'est énorme. Tu fais quoi comme check ?, le problème peut aussi venir des scripts qui font les checks.
Les checks sur les machines sont :
- ping
- check service FTP
- espace disque
- occupation ram
- bande passante eth0
- load average
- nombre process
- check_host_alive avec check_fping et non check_ping avec un timeout de 5
En testant les scripts un à un, ils sont relativement rapides.
artiflo, le 29 mai 2011 à 08:52, dit :
Est ce que les machines que tu checks sont surchargés ? Car les requêtes SNMP/NRPE/WMI c'est un peu l'ICMP des routeurs. La machine te répond quand si elle a le temps. Et ça peut faire de sacré timeout.
Normalement non, c'est justement un cas rare. Les load average dépassent rarement les 4-5.
artiflo, le 29 mai 2011 à 08:52, dit :
Tu as essayé d'enlever des machines de ton pool de test pour voir si il y avait un comportement différent ?
Le parc étant relativement homogène, je vois mal quelles machines retirer.
artiflo, le 29 mai 2011 à 08:52, dit :
Tu as essayé d'enlever des type de check pour voir si il y avait un comportement différent ?
A vrai dire, la chose curieuse est que je n'avais pas d'avertissement sur les latences sur ma précédente machine de monitoring qui était une petite SC chez Dedibox (avec processeur nano mono coeur et 2Go de ram). Celle-ci tenait bien les checks malgré une charge système relativement élevée (elle en chiait un peu parfois ^^).
artiflo, le 29 mai 2011 à 08:52, dit :
Est ce que ton parc de test est homogène ou hétérogène ?
100% Linux sur Debian dont 1/3 en 32 bits, le reste en 64. Niveau matos, c'est que de l'archi Intel.
artiflo, le 29 mai 2011 à 08:52, dit :
Si tu change le check à toutes les 2/3min (puis 1 min pour un SOFT DOWN) au lieu de 1min ça change quelque chose ? Je t'avoue que j'ai toujours vu des problème dés qu'on descendais à la minutes. Perso je ne descend à la minutes que pour faire du ping, les services sont à 3 min (puis 1 minutes si SOFT DOWN).
A vrai dire, le passage de 2 min à 1 min n'a rien changé aux latences. Ce qui est curieux, c'est que la charge système est très basse, on peut considérer que le serveur s'ennuie même ^^
artiflo, le 29 mai 2011 à 08:52, dit :
IO disk / Memory / Swap / Disk lenght / Processor Lenght ?
Les IO disque sont basses, la Ram est bien mise en cache, pas de swap. Voici un petit top fait à l'instant :
top - 15:05:19 up 14:19, 1 user, load average: 2.57, 3.22, 3.47
Tasks: 96 total, 1 running, 95 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.4%us, 0.0%sy, 0.0%ni, 74.3%id, 25.3%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 3979640k total, 3135568k used, 844072k free, 156340k buffers
Swap: 1044220k total, 0k used, 1044220k free, 2576224k cached
artiflo, le 29 mai 2011 à 08:52, dit :
Tu utilise ndo2db ? SI oui comment se comporte ton serveur de BDD ?
MySQL semble ok, moins de 100 queries/s, pas de slow queries :
Threads: 4 Questions: 1800 Slow queries: 0 Opens: 1474 Flush tables: 1 Open tables: 64 Queries per second avg: 90.0.
Merci en tout cas pour m'aider à solutionner ce problème pour le moins... curieux
EDIT : Là les latences ont un petit peu baissées depuis hier soir :
Min Max Average
Hosts 35.789 sec 230.412 sec 130.614 sec
Services 0.951 sec 230.885 sec 116.171 sec
Modifié par Snk, 29 mai 2011 à 14:11.