User Tools

Site Tools


gpfs

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
gpfs [2025/07/10 21:09] – [Monitoreo de salud] joaquintorresgpfs [2025/09/23 16:39] (current) joaquintorres
Line 107: Line 107:
 FILESYSTEM     HEALTHY       114 days ago      - FILESYSTEM     HEALTHY       114 days ago      -
 </code> </code>
 +
 +Para todos los nodos sería mmhealth node show -N all
  
 Y se puede obtener un histórico con Y se puede obtener un histórico con
Line 120: Line 122:
  
 Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo. Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo.
 +
 +==== Logs ====
 +Los logs se encuentran disponibles en los nodos, en /var/adm/ras/mmfs.log.latest, /var/adm/ras/mmfs.log.<fecha> y /var/adm/ras/mmsysmonitor.<nodo>.log-<fecha>.gz (legible con less).
 +
 ===== Rebuild de los módulos del kernel ===== ===== Rebuild de los módulos del kernel =====
 Cada vez que se instala un kernel nuevo, hace falta correr mmbuildgpl: Cada vez que se instala un kernel nuevo, hace falta correr mmbuildgpl:
Line 234: Line 240:
 mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth
 </code> </code>
 +===== Restart =====
  
 +Si el nodo se encuentra colgado por problema con los fs, y si estamos seguros de que está colgado por este motivo, se puede ejecutar:
 +
 +<code>
 +mmshutdown; mmstartup
 +</code>
 +
 +Que intenta desarmar el stack de gpfs (fs, driver, modulos) y volver a cargarlos, vuelve tambien a montar los fs, pero interrumpe todo proceso que de estos dependa.
 +
 +Si se desea hacer un restart de cero de todo el cluster, se ejecuta:
 +
 +<code>
 +mmstartup -a # levanta
 +mmgetstate -a #verifica
 +mmlsfs all #lista fs
 +mmlsmount all -L #verifica lo montado
 +</code>
gpfs.1752181753.txt.gz · Last modified: by joaquintorres