#grpo

TAPO: Optimización de Políticas Consciente de Herramientas

¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.

2026-06-06 · 2 min

Aprendizaje por refuerzo descompuesto para videojuegos de rol inmersivos

Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.

2026-06-06 · 3 min

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.

2026-06-06 · 2 min

RREDCoT: Redistribución Segmentada de Recompensas para Razonamiento

Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.

2026-06-05 · 2 min

Partición causal preregistrada de elicitación y diseño de recompensas en RLVR

Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.

2026-06-05 · 2 min

Optimización de Política de Secuencia Suave

Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.

2026-06-05 · 2 min

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

AsyncWebRL: RL multi-paso eficiente para agentes web visuales

Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.

2026-06-05 · 1 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min

MDP-GRPO: Optimización de Políticas Grupales Estabilizada para Instrucciones Multi-Restricción

Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.

2026-06-05 · 1 min

BiasGRPO: mitigación de sesgos en alta varianza con optimización grupal

Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.

2026-06-04 · 3 min

Más allá de la equivalencia: inyección de restricciones para LLM en VRP

Aprende cómo la inyección de restricciones optimiza rutas con LLM, superando a Gemini y Claude. Nuevo verificador dual con 93% Pass@1.

2026-06-04 · 2 min

POLARIS: Guiando modelos pequeños a escribir historias largas

POLARIS entrena modelos pequeños (9B) para escribir historias largas y de calidad, usando un juez LLM y referencias humanas. Compite con modelos mucho mayores.

2026-06-04 · 1 min

Redistribución de Ventajas Basada en Resultados para Razonamiento Matemático

Descubre OAR un nuevo método de GRPO que asigna crédito fino a cada token en razonamiento matemático mejorando el rendimiento sin costo computacional adicional

2026-06-04 · 2 min

Replay de experiencia a nivel de rollout para GRPO

Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.

2026-06-04 · 2 min

FSA-GRPO: Cómo entrenar LLMs auditivos con pocos ejemplos

Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.

2026-06-03 · 1 min

RLVR: el costo oculto de olvidar problemas resueltos

Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.

2026-06-03 · 3 min