Modelos pequeños: exploradores naturales para diversidad en GRPO Descubre cómo los modelos pequeños mejoran la diversidad en GRPO y entrenan modelos grandes con mayor eficiencia. Aumenta el rendimiento en razonamiento matemático. 2026-06-01 · 2 min