User Tools

Site Tools


hbm

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
hbm [2025/10/24 17:58] – created joaquintorreshbm [2025/10/24 18:12] (current) joaquintorres
Line 1: Line 1:
 ====== HBM ====== ====== HBM ======
 Casi toda la info se puede encontrar en [[https://www.intel.com/content/www/us/en/content-details/787743/intel-xeon-cpu-max-series-configuration-and-tuning-guide.html|la documentación oficial de Intel]]. Casi toda la info se puede encontrar en [[https://www.intel.com/content/www/us/en/content-details/787743/intel-xeon-cpu-max-series-configuration-and-tuning-guide.html|la documentación oficial de Intel]].
 +
 +{{ :354227-intel-xeon-cpu-max-series-configuration-and-tuning-guide-rev3.pdf |}}
  
 Cada nodo tiene un paquete de 64GB de HBM por cada socket, i.e. 128GB en total. La memoria tiene dos modos de operación en conjunto con DDR4: Flat y Cache. Cada nodo tiene un paquete de 64GB de HBM por cada socket, i.e. 128GB en total. La memoria tiene dos modos de operación en conjunto con DDR4: Flat y Cache.
Line 22: Line 24:
 (Disabled para desactivarlo) (Disabled para desactivarlo)
  
-===== Headline =====+===== Configuración del kernel ===== 
 + 
 +De acuerdo a la documentación, para el modo cache normal es recomendable dividir la memoria en fake NUMA nodes de 64GB (16GB para SNC4). Para esto, es necesario cambiar los argumentos del kernel agregando numa=fake=4U (numa=fake=16U en el caso de SNC4). Esto se logra, en confluent, cambiando el archivo profile.yaml (por ejemplo /var/lib/confluent/public/os/rhel-8.8-x86_64-diskless-gpu/profile.yaml)y haciendo un deploy: 
 + 
 +<code> 
 +# osdeploy updateboot rhel-8.8-x86_64-diskless-gpu 
 +# nodedeploy <nodos> 
 +</code> 
 + 
 +Además, cuando ya bootea, es necesario hacer un enable de zone-reclaim: 
 + 
 +<code> 
 +# echo 2 > /proc/sys/vm/zone_reclaim_mode 
 +</code> 
 +(automatizable en confluent/ansible) 
 + 
 +y antes de cada job hacer un flush de la cache: 
 + 
 +<code> 
 +# sync; echo 3 > /proc/sys/vm/drop_caches; 
 +# echo 1 > /proc/sys/vm/compact_memory 
 +</code>
  
 +(Automatizable en un prolog de Slurm)
hbm.1761328736.txt.gz · Last modified: by joaquintorres