DARTS: Modelado Distribucional Activo para Acelerar RL en LLMs
Descubre cómo DARTS acelera el aprendizaje por refuerzo en LLMs al modelar trayectorias de rollout con conciencia distribucional, reduciendo verbosidad y mejorando eficiencia hasta 1.77x.