Optimización eficiente de hiperparámetros para RL en LLMs Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%. 2026-06-03 · 1 min