TAPO: Optimización de Políticas Consciente de Herramientas
¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.
¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.
Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.
GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.
Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.
Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.
Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.
Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.
Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.
Aprende cómo la inyección de restricciones optimiza rutas con LLM, superando a Gemini y Claude. Nuevo verificador dual con 93% Pass@1.
POLARIS entrena modelos pequeños (9B) para escribir historias largas y de calidad, usando un juez LLM y referencias humanas. Compite con modelos mucho mayores.
Descubre OAR un nuevo método de GRPO que asigna crédito fino a cada token en razonamiento matemático mejorando el rendimiento sin costo computacional adicional
Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.
Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
FGRPO: fine-tuning privado de modelos de lenguaje con agregación adaptativa en datos no IID. Mejora el razonamiento sin exponer datos.
¿RLVR olvida lo que aprendió? Descubre la rotación del conjunto correcto y cómo Remind lo corrige sin coste. Mejora tus modelos.
FGRPO optimiza modelos de razonamiento con agregación adaptativa en datos no IID, preservando privacidad.