slurm_tips
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| slurm_tips [2025/09/11 13:34] – joaquintorres | slurm_tips [2026/02/18 15:04] (current) – bbruzzo | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Cheatsheet SLURM ====== | ====== Cheatsheet SLURM ====== | ||
| - | ==Ver logs de SLURM desde login== | + | ===== Ver logs de SLURM desde login ===== |
| < | < | ||
| Line 9: | Line 9: | ||
| < | < | ||
| - | ==Monitorear consumo de QOS== | + | ===== Monitorear consumo de QOS ===== |
| < | < | ||
| Line 43: | Line 43: | ||
| Donde 944 es la cantidad de horas disponibles y 943 es las utilizadas al momento. | Donde 944 es la cantidad de horas disponibles y 943 es las utilizadas al momento. | ||
| - | == Cambiar de estado == | + | ===== Cambiar de estado |
| Drain: | Drain: | ||
| < | < | ||
| Line 55: | Line 55: | ||
| </ | </ | ||
| + | ===== Agregar usuario administrador ===== | ||
| + | < | ||
| + | sacctmgr modify user name=< | ||
| + | sacctmgr modify user name=< | ||
| + | </ | ||
| + | ===== Monitorear tiempo de espera y priority ===== | ||
| + | |||
| + | Si los usuarios se quejan de que su job tarda mucho en entrar, podemos | ||
| + | en primera instancia utilizar squeue con un poco más de información: | ||
| + | |||
| + | < | ||
| + | squeue -o "%.7i %.20V %.10a %.15u %.5t %.7C %.7Q %.R" | ||
| + | </ | ||
| + | |||
| + | Esto nos permite ver fecha de envío del job, y la priority del mismo, junto con el job size. | ||
| + | |||
| + | Si queremos ver en más detalle calcular el tiempo de espera de cada job: | ||
| + | |||
| + | < | ||
| + | sacct -Xa --starttime=0215 --parsable --endtime=now --format=JobID, | ||
| + | NR==1 { | ||
| + | # Print header with fixed widths | ||
| + | printf "%-15s %-20s %-20s %-10s %-10s %-10s %-10s %-12s %-10s\n", | ||
| + | next | ||
| + | } | ||
| + | $3 ~ /[0-9]/ { | ||
| + | s1 = $2; s2 = $3; | ||
| + | gsub(/ | ||
| + | gsub(/ | ||
| + | | ||
| + | # Calculate days | ||
| + | w_days = (mktime(s2) - mktime(s1)) / 86400; | ||
| + | |||
| + | # Print data rows with matching fixed widths | ||
| + | # %-15s = string, left-aligned, | ||
| + | # %-10.2f = float, 2 decimals, 10 chars wide | ||
| + | printf "%-15s %-20s %-20s %-10s %-10s %-10s %-10s %-12s %-10.2f\n", | ||
| + | }' | ||
| + | |||
| + | </ | ||
| + | |||
| + | Veremos que en la última columna está el tiempo que tardó el job en entrar a queue. | ||
| + | |||
| + | Ajustar la fecha de --starttime acordemente. | ||
| + | |||
| + | |||
| + | Para analizar usuarios por fairshare (peor fairshare) usar opción --reverse si se quiere ver al revez. | ||
| + | |||
| + | < | ||
| + | sshare -aU | awk ' | ||
| + | </ | ||
slurm_tips.1757597684.txt.gz · Last modified: by joaquintorres
