User Tools

Site Tools


gpfs

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
gpfs [2025/07/10 20:59] joaquintorresgpfs [2025/09/23 16:39] (current) joaquintorres
Line 92: Line 92:
  
 </code> </code>
 +
 +En cada nodo se puede correr un comando más específico:
 +<code>
 +# /usr/lpp/mmfs/bin/mmhealth node show -N cn013-ib0
 +
 +Node name:      cn013-ib0
 +Node status:    HEALTHY
 +Status Change:  114 days ago
 +
 +Component      Status        Status Change     Reasons & Notices
 +-------------------------------------------------------------------------------
 +GPFS           HEALTHY       114 days ago      -
 +NETWORK        HEALTHY       114 days ago      -
 +FILESYSTEM     HEALTHY       114 days ago      -
 +</code>
 +
 +Para todos los nodos sería mmhealth node show -N all
 +
 +Y se puede obtener un histórico con
 +
 +<code>
 +# /usr/lpp/mmfs/bin/mmhealth node eventlog
 +Node name: mmgt01-ib0
 +Timestamp                         Event Name                             Severity             Details
 +2024-10-21 14:13:14.706824 -03    cluster_connections_bad                WARNING Connection to cluster node 172.27.0.7 has 1 bad connection(s). (Maximum 2).
 +2024-10-21 14:13:21.499309 -03    cluster_connections_ok                 INFO    All connections are good for target ip 172.27.0.7.
 +2024-10-21 14:13:21.509307 -03    local_fs_normal                        INFO    The local file system with the mount point / used for /tmp/mmfs reached a normal level with more than 1000 MB free space.
 +</code>
 +
 +Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo.
 +
 +==== Logs ====
 +Los logs se encuentran disponibles en los nodos, en /var/adm/ras/mmfs.log.latest, /var/adm/ras/mmfs.log.<fecha> y /var/adm/ras/mmsysmonitor.<nodo>.log-<fecha>.gz (legible con less).
  
 ===== Rebuild de los módulos del kernel ===== ===== Rebuild de los módulos del kernel =====
Line 207: Line 240:
 mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth mmcesminfuncs                         mmchpool                  mmimgbackup         mmremotecluster   sysmon.snap.py                  tskafkaauth
 </code> </code>
 +===== Restart =====
  
 +Si el nodo se encuentra colgado por problema con los fs, y si estamos seguros de que está colgado por este motivo, se puede ejecutar:
 +
 +<code>
 +mmshutdown; mmstartup
 +</code>
 +
 +Que intenta desarmar el stack de gpfs (fs, driver, modulos) y volver a cargarlos, vuelve tambien a montar los fs, pero interrumpe todo proceso que de estos dependa.
 +
 +Si se desea hacer un restart de cero de todo el cluster, se ejecuta:
 +
 +<code>
 +mmstartup -a # levanta
 +mmgetstate -a #verifica
 +mmlsfs all #lista fs
 +mmlsmount all -L #verifica lo montado
 +</code>
gpfs.1752181170.txt.gz · Last modified: by joaquintorres