slurm_tips
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| slurm_tips [2025/07/18 19:53] – bbruzzo | slurm_tips [2026/02/18 15:04] (current) – bbruzzo | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Cheatsheet SLURM ====== | ====== Cheatsheet SLURM ====== | ||
| + | |||
| + | ===== Ver logs de SLURM desde login ===== | ||
| + | < | ||
| ==Actualizar partición== | ==Actualizar partición== | ||
| + | Con el siguiente comando se actualiza temporalmente el tiempo máximo que puede tener un job para ingresar a una partición pero **hasta que se reincie el slurmctld** donde vuelve a tomar el que esté definido en slurm.conf: | ||
| < | < | ||
| - | ==Monitorear consumo de QOS== | + | ===== Monitorear consumo de QOS ===== |
| < | < | ||
| Line 38: | Line 42: | ||
| Donde 944 es la cantidad de horas disponibles y 943 es las utilizadas al momento. | Donde 944 es la cantidad de horas disponibles y 943 es las utilizadas al momento. | ||
| + | |||
| + | ===== Cambiar de estado ===== | ||
| + | Drain: | ||
| + | < | ||
| + | scontrol update NodeName=cn0xx State=DRAIN Reason=" | ||
| + | </ | ||
| + | |||
| + | Undrain: | ||
| + | < | ||
| + | scontrol update NodeName=cn0xx State=DOWN Reason=" | ||
| + | scontrol update NodeName=cn0xx State=RESUME | ||
| + | </ | ||
| + | |||
| + | ===== Agregar usuario administrador ===== | ||
| + | < | ||
| + | sacctmgr modify user name=< | ||
| + | sacctmgr modify user name=< | ||
| + | </ | ||
| + | |||
| + | ===== Monitorear tiempo de espera y priority ===== | ||
| + | |||
| + | Si los usuarios se quejan de que su job tarda mucho en entrar, podemos | ||
| + | en primera instancia utilizar squeue con un poco más de información: | ||
| + | |||
| + | < | ||
| + | squeue -o "%.7i %.20V %.10a %.15u %.5t %.7C %.7Q %.R" | ||
| + | </ | ||
| + | |||
| + | Esto nos permite ver fecha de envío del job, y la priority del mismo, junto con el job size. | ||
| + | |||
| + | Si queremos ver en más detalle calcular el tiempo de espera de cada job: | ||
| + | |||
| + | < | ||
| + | sacct -Xa --starttime=0215 --parsable --endtime=now --format=JobID, | ||
| + | NR==1 { | ||
| + | # Print header with fixed widths | ||
| + | printf "%-15s %-20s %-20s %-10s %-10s %-10s %-10s %-12s %-10s\n", | ||
| + | next | ||
| + | } | ||
| + | $3 ~ /[0-9]/ { | ||
| + | s1 = $2; s2 = $3; | ||
| + | gsub(/ | ||
| + | gsub(/ | ||
| + | | ||
| + | # Calculate days | ||
| + | w_days = (mktime(s2) - mktime(s1)) / 86400; | ||
| + | |||
| + | # Print data rows with matching fixed widths | ||
| + | # %-15s = string, left-aligned, | ||
| + | # %-10.2f = float, 2 decimals, 10 chars wide | ||
| + | printf "%-15s %-20s %-20s %-10s %-10s %-10s %-10s %-12s %-10.2f\n", | ||
| + | }' | ||
| + | |||
| + | </ | ||
| + | |||
| + | Veremos que en la última columna está el tiempo que tardó el job en entrar a queue. | ||
| + | |||
| + | Ajustar la fecha de --starttime acordemente. | ||
| + | |||
| + | |||
| + | Para analizar usuarios por fairshare (peor fairshare) usar opción --reverse si se quiere ver al revez. | ||
| + | |||
| + | < | ||
| + | sshare -aU | awk ' | ||
| + | </ | ||
slurm_tips.1752868412.txt.gz · Last modified: by bbruzzo
