User Tools

Site Tools


baja-nodos

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

baja-nodos [2025/08/04 18:36] – created joaquintorresbaja-nodos [2025/08/04 18:38] (current) joaquintorres
Line 4: Line 4:
  
 ===== Protocolo ===== ===== Protocolo =====
-1. Determinar que el nodo está fallando +  - Determinar que el nodo está fallando 
-2. Ponerlo en estado "draining" en Slurm +  Ponerlo en estado "draining" en Slurm 
-3. Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock) +  Hacer una revisión del estado de GPFS (ls /home , por ejemplo, debería mostrar si hay un deadlock) 
-4. Extraer logs relevantes +  Extraer logs relevantes 
-5. En caso de GPFS, resetear el filesystem +  En caso de GPFS, resetear el filesystem  
-6. En otro caso (p.ej. forkbomb) matar los procesos problemáticos +  En otro caso (p.ej. forkbomb) matar los procesos problemáticos 
-7. En el peor de los casos, resetear el nodo +  En el peor de los casos, resetear el nodo 
-8. Verificar el funcionamiento correcto +  Verificar el funcionamiento correcto 
-9. Volver a poner el nodo en estado "idle" +  Volver a poner el nodo en estado "idle"
  
 ===== Slurm ===== ===== Slurm =====
baja-nodos.1754332593.txt.gz · Last modified: by joaquintorres