Un Pool, Dos Cachés: Partición Adaptativa de HBM para Acelerar el Servicio de Recomendadores Generativos
Partición adaptativa de HBM con un pool y dos cachés para acelerar recomendadores generativos. Optimiza memoria y rendimiento en sistemas de recomendación.