baja-nodos
This is an old revision of the document!
Table of Contents
Baja de nodos caídos
En el caso de nodos caídos (por fallas en GPFS, forkbomb, etc.) hace falta diagnosticar y resetear correctamente para poder reestablecer el nodo a servicio.
Protocolo
1. Determinar que el nodo está fallando 2. Ponerlo en estado “draining” en Slurm 3. Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock) 4. Extraer logs relevantes 5. En caso de GPFS, resetear el filesystem 6. En otro caso (p.ej. forkbomb) matar los procesos problemáticos 7. En el peor de los casos, resetear el nodo 8. Verificar el funcionamiento correcto 9. Volver a poner el nodo en estado “idle”
Slurm
Draining y Idle
scontrol update NodeName=<nombre nodo> State=DRAIN Reason="GPFS failure" scontrol update NodeName=<nombre nodo> State=IDLE
Reseteo de GPFS
nodeshell <nomnbre nodo> "mmshutdown; mmstartup"
baja-nodos.1754332593.txt.gz · Last modified: by joaquintorres
