User Tools

Site Tools


slurm_tips

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
slurm_tips [2025/07/07 18:39] – created bbruzzoslurm_tips [2025/11/20 16:44] (current) bbruzzo
Line 1: Line 1:
 ====== Cheatsheet SLURM ====== ====== Cheatsheet SLURM ======
 +
 +===== Ver logs de SLURM desde login =====
 +<code>sudo -u slurm cat /var/log/slurmctld.log</code>
  
 ==Actualizar partición== ==Actualizar partición==
 +Con el siguiente comando se actualiza temporalmente el tiempo máximo que puede tener un job para ingresar a una partición pero **hasta que se reincie el slurmctld** donde vuelve a tomar el que esté definido en slurm.conf:
  
 <code>scontrol update PartitionName=cpunode MaxTime=2-0</code> <code>scontrol update PartitionName=cpunode MaxTime=2-0</code>
 +
 +===== Monitorear consumo de QOS =====
 +
 +<code>scontrol show assoc_mgr | grep "QOS=qosprueba(32)" -A 21</code>
 +
 +El output va a ser algo asi:
 +
 +<code>QOS=qosprueba(32)
 +    UsageRaw=56629.000000
 +    GrpJobs=N(1) GrpJobsAccrue=N(0) GrpSubmitJobs=N(1) GrpWall=N(59.72)
 +    GrpTRES=cpu=N(64),mem=N(506808),energy=N(0),node=N(1),billing=N(64),fs/disk=N(0),vmem=N(0),pages=N(0),gres/gpu=N(4),gres/gpumem=N(0),gres/gpuutil=N(0)
 +    GrpTRESMins=cpu=944(943),mem=N(30264884),energy=N(0),node=N(59),billing=N(943),fs/disk=N(0),vmem=N(0),pages=N(0),gres/gpu=2000(1),gres/gpumem=N(0),gres/gpuutil=N(0)
 +    GrpTRESRunMins=cpu=N(64),mem=N(506808),energy=N(0),node=N(1),billing=N(64),fs/disk=N(0),vmem=N(0),pages=N(0),gres/gpu=N(4),gres/gpumem=N(0),gres/gpuutil=N(0)
 +    MaxWallPJ=
 +    MaxTRESPJ=
 +    MaxTRESPN=
 +    MaxTRESMinsPJ=
 +    MinPrioThresh= 
 +    MinTRESPJ=
 +    PreemptMode=OFF
 +    Priority=0
 +    Account Limits
 +      cuentaprueba
 +        MaxJobsPA=N(1) MaxJobsAccruePA=N(0) MaxSubmitJobsPA=N(1)
 +        MaxTRESPA=cpu=N(64),mem=N(506808),energy=N(0),node=N(1),billing=N(64),fs/disk=N(0),vmem=N(0),pages=N(0),gres/gpu=N(4),gres/gpumem=N(0),gres/gpuutil=N(0)
 +    User Limits
 +      utest(10054)
 +        MaxJobsPU=N(1) MaxJobsAccruePU=N(0) MaxSubmitJobsPU=N(1)
 +        MaxTRESPU=cpu=N(64),mem=N(506808),energy=N(0),node=N(1),billing=N(64),fs/disk=N(0),vmem=N(0),pages=N(0),gres/gpu=N(4),gres/gpumem=N(0),gres/gpuutil=N(0)</code>
 +        
 +Ver la línea: 
 +<code>GrpTRESMins=cpu=944(943)</code>
 +
 +Donde 944 es la cantidad de horas disponibles y 943 es las utilizadas al momento.
 +
 +===== Cambiar de estado =====
 +Drain:
 +<code>
 +scontrol update NodeName=cn0xx State=DRAIN Reason="maintenance"
 +</code>
 +
 +Undrain:
 +<code>
 +scontrol update NodeName=cn0xx State=DOWN Reason="undraining"
 +scontrol update NodeName=cn0xx State=RESUME
 +</code>
 +
 +===== Agregar usuario administrador =====
 +<code>sacctmgr create user name=<user> account=users
 +sacctmgr modify user name=<user> set defaultaccount=users
 +sacctmgr modify user name=<user> set adminlevel=administrator
 +</code>
slurm_tips.1751913570.txt.gz · Last modified: by bbruzzo