====== Baja de nodos caídos ======
En el caso de nodos caídos (por fallas en GPFS, forkbomb, etc.) hace falta diagnosticar y resetear correctamente para poder reestablecer el nodo a servicio.
===== Protocolo =====
- Determinar que el nodo está fallando
- Ponerlo en estado "draining" en Slurm
- Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock)
- Extraer logs relevantes
- En caso de GPFS, resetear el filesystem
- En otro caso (p.ej. forkbomb) matar los procesos problemáticos
- En el peor de los casos, resetear el nodo
- Verificar el funcionamiento correcto
- Volver a poner el nodo en estado "idle"
===== Slurm =====
==== Draining y Idle ====
scontrol update NodeName= State=DRAIN Reason="GPFS failure"
scontrol update NodeName= State=IDLE
===== Reseteo de GPFS =====
nodeshell "mmshutdown; mmstartup"