User Tools

Site Tools


gpfs

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
gpfs [2025/07/10 21:06] – [Monitoreo de salud] joaquintorresgpfs [2025/09/23 16:39] (current) joaquintorres
Line 95: Line 95:
 En cada nodo se puede correr un comando más específico: En cada nodo se puede correr un comando más específico:
 <code> <code>
-# /usr/lpp/mmfs/bin/mmhealth node show+# /usr/lpp/mmfs/bin/mmhealth node show -N cn013-ib0
  
 Node name:      cn013-ib0 Node name:      cn013-ib0
Line 107: Line 107:
 FILESYSTEM     HEALTHY       114 days ago      - FILESYSTEM     HEALTHY       114 days ago      -
 </code> </code>
 +
 +Para todos los nodos sería mmhealth node show -N all
  
 Y se puede obtener un histórico con Y se puede obtener un histórico con
Line 118: Line 120:
 2024-10-21 14:13:21.509307 -03    local_fs_normal                        INFO    The local file system with the mount point / used for /tmp/mmfs reached a normal level with more than 1000 MB free space. 2024-10-21 14:13:21.509307 -03    local_fs_normal                        INFO    The local file system with the mount point / used for /tmp/mmfs reached a normal level with more than 1000 MB free space.
 </code> </code>
 +
 +Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo.
 +
 +==== Logs ====
 +Los logs se encuentran disponibles en los nodos, en /var/adm/ras/mmfs.log.latest, /var/adm/ras/mmfs.log.<fecha> y /var/adm/ras/mmsysmonitor.<nodo>.log-<fecha>.gz (legible con less).
  
 ===== Rebuild de los módulos del kernel ===== ===== Rebuild de los módulos del kernel =====
Line 233: Line 240:
 mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth
 </code> </code>
 +===== Restart =====
  
 +Si el nodo se encuentra colgado por problema con los fs, y si estamos seguros de que está colgado por este motivo, se puede ejecutar:
 +
 +<code>
 +mmshutdown; mmstartup
 +</code>
 +
 +Que intenta desarmar el stack de gpfs (fs, driver, modulos) y volver a cargarlos, vuelve tambien a montar los fs, pero interrumpe todo proceso que de estos dependa.
 +
 +Si se desea hacer un restart de cero de todo el cluster, se ejecuta:
 +
 +<code>
 +mmstartup -a # levanta
 +mmgetstate -a #verifica
 +mmlsfs all #lista fs
 +mmlsmount all -L #verifica lo montado
 +</code>
gpfs.1752181568.txt.gz · Last modified: by joaquintorres