baja-nodos
Table of Contents
Baja de nodos caídos
En el caso de nodos caídos (por fallas en GPFS, forkbomb, etc.) hace falta diagnosticar y resetear correctamente para poder reestablecer el nodo a servicio.
Protocolo
- Determinar que el nodo está fallando
- Ponerlo en estado “draining” en Slurm
- Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock)
- Extraer logs relevantes
- En caso de GPFS, resetear el filesystem
- En otro caso (p.ej. forkbomb) matar los procesos problemáticos
- En el peor de los casos, resetear el nodo
- Verificar el funcionamiento correcto
- Volver a poner el nodo en estado “idle”
Slurm
Draining y Idle
scontrol update NodeName=<nombre nodo> State=DRAIN Reason="GPFS failure" scontrol update NodeName=<nombre nodo> State=IDLE
Reseteo de GPFS
nodeshell <nomnbre nodo> "mmshutdown; mmstartup"
baja-nodos.txt · Last modified: by joaquintorres
