#diversidad de políticas

Modelos pequeños: exploradores naturales para diversidad en GRPO

Descubre cómo los modelos pequeños mejoran la diversidad en GRPO y entrenan modelos grandes con mayor eficiencia. Aumenta el rendimiento en razonamiento matemático.

2026-06-01 · 2 min