User Tools

Site Tools


baja-nodos

This is an old revision of the document!


Baja de nodos caídos

En el caso de nodos caídos (por fallas en GPFS, forkbomb, etc.) hace falta diagnosticar y resetear correctamente para poder reestablecer el nodo a servicio.

Protocolo

1. Determinar que el nodo está fallando 2. Ponerlo en estado “draining” en Slurm 3. Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock) 4. Extraer logs relevantes 5. En caso de GPFS, resetear el filesystem 6. En otro caso (p.ej. forkbomb) matar los procesos problemáticos 7. En el peor de los casos, resetear el nodo 8. Verificar el funcionamiento correcto 9. Volver a poner el nodo en estado “idle”

Slurm

Draining y Idle

scontrol update NodeName=<nombre nodo> State=DRAIN Reason="GPFS failure"
scontrol update NodeName=<nombre nodo> State=IDLE

Reseteo de GPFS

nodeshell <nomnbre nodo> "mmshutdown; mmstartup"
baja-nodos.1754332593.txt.gz · Last modified: by joaquintorres