gpfs
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| gpfs [2025/07/10 16:28] – joaquintorres | gpfs [2025/09/23 16:39] (current) – joaquintorres | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== GPFS ====== | ====== GPFS ====== | ||
| + | |||
| + | |||
| + | ===== Documentación (GPFS v5.18) ===== | ||
| + | {{ : | ||
| + | {{ : | ||
| + | {{ : | ||
| ===== Estructura del cluster GPFS ===== | ===== Estructura del cluster GPFS ===== | ||
| Line 7: | Line 13: | ||
| * Quorum nodes: sdmgt01-ib0 y sdmgt02-ib0. Nodos seleccionables para Cluster Manager. | * Quorum nodes: sdmgt01-ib0 y sdmgt02-ib0. Nodos seleccionables para Cluster Manager. | ||
| * File system manager. Hace las reparaciones, | * File system manager. Hace las reparaciones, | ||
| + | * Metanode: uno por archivo/ | ||
| + | * AFM gateway node: Cada "cache fileset" | ||
| La info del cluster manager se obtiene de correr: | La info del cluster manager se obtiene de correr: | ||
| < | < | ||
| - | mmlsmgr -c | + | $ mmlsmgr |
| + | file system | ||
| + | ---------------- ------------------ | ||
| + | data_fs | ||
| + | home_fs | ||
| Cluster manager node: 172.27.253.31 (sdmgt01-ib0) | Cluster manager node: 172.27.253.31 (sdmgt01-ib0) | ||
| </ | </ | ||
| + | |||
| + | La data se almacena directamente en el inodo si no hay niveles de indirección, | ||
| + | |||
| ===== Directorios compartidos ===== | ===== Directorios compartidos ===== | ||
| Line 27: | Line 43: | ||
| data_fs | data_fs | ||
| home_fs | home_fs | ||
| + | mmlsfs all -Q | ||
| + | |||
| + | File system attributes for / | ||
| + | ======================================== | ||
| + | flag value description | ||
| + | ------------------- ------------------------ ----------------------------------- | ||
| + | | ||
| + | user; | ||
| + | none | ||
| + | |||
| + | File system attributes for / | ||
| + | ======================================== | ||
| + | flag value description | ||
| + | ------------------- ------------------------ ----------------------------------- | ||
| + | | ||
| + | user; | ||
| + | none | ||
| + | </ | ||
| + | |||
| + | Asumiendo que la integración con df es correcta, la cantidad de inodos para /data son 128 millones y para /home 47 millones: | ||
| + | |||
| + | < | ||
| + | data_fs | ||
| + | home_fs | ||
| </ | </ | ||
| Line 34: | Line 74: | ||
| / | / | ||
| + | |||
| + | ===== Monitoreo de salud ===== | ||
| + | Se puede ver un snapshot de la salud del cluster GPFS con | ||
| + | |||
| + | < | ||
| + | $ sudo / | ||
| + | |||
| + | Component | ||
| + | -------------------------------------------------------------------------------------- | ||
| + | NODE 87 1 1 | ||
| + | GPFS 87 0 1 | ||
| + | NETWORK | ||
| + | FILESYSTEM | ||
| + | DISK | ||
| + | FILESYSMGR | ||
| + | NATIVE_RAID | ||
| + | |||
| + | </ | ||
| + | |||
| + | En cada nodo se puede correr un comando más específico: | ||
| + | < | ||
| + | # / | ||
| + | |||
| + | Node name: cn013-ib0 | ||
| + | Node status: | ||
| + | Status Change: | ||
| + | |||
| + | Component | ||
| + | ------------------------------------------------------------------------------- | ||
| + | GPFS | ||
| + | NETWORK | ||
| + | FILESYSTEM | ||
| + | </ | ||
| + | |||
| + | Para todos los nodos sería mmhealth node show -N all | ||
| + | |||
| + | Y se puede obtener un histórico con | ||
| + | |||
| + | < | ||
| + | # / | ||
| + | Node name: | ||
| + | Timestamp | ||
| + | 2024-10-21 14: | ||
| + | 2024-10-21 14: | ||
| + | 2024-10-21 14: | ||
| + | </ | ||
| + | |||
| + | Los eventos que aparecen **pueden hacer de trigger para algún script en caso de falla**. Eso estaría bueno implementarlo. | ||
| + | |||
| + | ==== Logs ==== | ||
| + | Los logs se encuentran disponibles en los nodos, en / | ||
| ===== Rebuild de los módulos del kernel ===== | ===== Rebuild de los módulos del kernel ===== | ||
| Line 149: | Line 240: | ||
| mmcesminfuncs | mmcesminfuncs | ||
| </ | </ | ||
| + | ===== Restart ===== | ||
| + | Si el nodo se encuentra colgado por problema con los fs, y si estamos seguros de que está colgado por este motivo, se puede ejecutar: | ||
| + | < | ||
| + | mmshutdown; mmstartup | ||
| + | </ | ||
| + | |||
| + | Que intenta desarmar el stack de gpfs (fs, driver, modulos) y volver a cargarlos, vuelve tambien a montar los fs, pero interrumpe todo proceso que de estos dependa. | ||
| + | |||
| + | Si se desea hacer un restart de cero de todo el cluster, se ejecuta: | ||
| + | |||
| + | < | ||
| + | mmstartup -a # levanta | ||
| + | mmgetstate -a #verifica | ||
| + | mmlsfs all #lista fs | ||
| + | mmlsmount all -L #verifica lo montado | ||
| + | </ | ||
gpfs.1752164896.txt.gz · Last modified: by joaquintorres
