Differences

This shows you the differences between two versions of the page.

--- gpfs [2025/07/10 21:06] – [Monitoreo de salud] joaquintorres
+++ gpfs [2025/09/23 16:39] (current) – joaquintorres
@@ Line 95: / Line 95: @@
 En cada nodo se puede correr un comando más específico:
 <code>
-# /usr/lpp/mmfs/bin/mmhealth node show
+# /usr/lpp/mmfs/bin/mmhealth node show -N cn013-ib0
 Node name:      cn013-ib0
@@ Line 107: / Line 107: @@
 FILESYSTEM     HEALTHY       114 days ago      -
 </code>
+Para todos los nodos sería mmhealth node show -N all
 Y se puede obtener un histórico con
@@ Line 118: / Line 120: @@
 -10-21 14:13:21.509307 -03    local_fs_normal                        INFO    The local file system with the mount point / used for /tmp/mmfs reached a normal level with more than 1000 MB free space.
 </code>
+Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo.
+==== Logs ====
+Los logs se encuentran disponibles en los nodos, en /var/adm/ras/mmfs.log.latest, /var/adm/ras/mmfs.log.<fecha> y /var/adm/ras/mmsysmonitor.<nodo>.log-<fecha>.gz (legible con less).
 ===== Rebuild de los módulos del kernel =====
@@ Line 233: / Line 240: @@
 mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth
 </code>
+===== Restart =====
+Si el nodo se encuentra colgado por problema con los fs, y si estamos seguros de que está colgado por este motivo, se puede ejecutar:
+<code>
+mmshutdown; mmstartup
+</code>
+Que intenta desarmar el stack de gpfs (fs, driver, modulos) y volver a cargarlos, vuelve tambien a montar los fs, pero interrumpe todo proceso que de estos dependa.
+Si se desea hacer un restart de cero de todo el cluster, se ejecuta:
+<code>
+mmstartup -a # levanta
+mmgetstate -a #verifica
+mmlsfs all #lista fs
+mmlsmount all -L #verifica lo montado
+</code>