====== Baja de nodos caídos ====== En el caso de nodos caídos (por fallas en GPFS, forkbomb, etc.) hace falta diagnosticar y resetear correctamente para poder reestablecer el nodo a servicio. ===== Protocolo ===== - Determinar que el nodo está fallando - Ponerlo en estado "draining" en Slurm - Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock) - Extraer logs relevantes - En caso de GPFS, resetear el filesystem - En otro caso (p.ej. forkbomb) matar los procesos problemáticos - En el peor de los casos, resetear el nodo - Verificar el funcionamiento correcto - Volver a poner el nodo en estado "idle" ===== Slurm ===== ==== Draining y Idle ==== scontrol update NodeName= State=DRAIN Reason="GPFS failure" scontrol update NodeName= State=IDLE ===== Reseteo de GPFS ===== nodeshell "mmshutdown; mmstartup"