#aprendizaje por refuerzo

Partición causal preregistrada de elicitación y diseño de recompensas en RLVR

Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.

2026-06-05 · 2 min

Convergencia Rápida y Robusta de TD(0) con Aproximación Lineal

Descubre cómo TD(0) con aproximación lineal logra una convergencia rápida y robusta, con tasa óptima de 1/k y sin depender del menor autovalor. Ideal para aprendizaje por refuerzo.

2026-06-05 · 2 min

Control basado en modelos y RL multiagente para estrategias cooperativas

MA-AC-MPC: fusión de control predictivo y RL multiagente para estrategias cooperativas seguras. Logra 100% de éxito en hardware con drones y robots.

2026-06-05 · 2 min

TLA-Prover: Síntesis verificable de TLA+ con optimización por preferencias

Descubre TLA-Prover, el modelo de IA que sintetiza especificaciones TLA+ verificables con un 30% de tasa de éxito, superando en 3.5x a los modelos previos.

2026-06-05 · 1 min

DNQ: Deep Nash Q-Network para juegos de n jugadores parcialmente observables

Descubre DNQ: un marco que entrena agentes con equilibrios de Nash en juegos competitivos. Escalable a muchos jugadores.

2026-06-05 · 2 min

EVILL: exploración eficaz en bandidos con perturbación lineal

Descubre EVILL, un revolucionario método de exploración para bandidos estocásticos. A diferencia de PHE, usa perturbaciones lineales en la pérdida para lograr mejores resultados. Ideal para IA.

2026-06-05 · 1 min

Aprendizaje de recompensas con ranking MSE

R4: nuevo método de aprendizaje por refuerzo que aprende recompensas a partir de calificaciones humanas con garantías formales y rendimiento superior en robótica.

2026-06-05 · 2 min

Más allá de las recompensas en el aprendizaje por refuerzo para ciberdefensa

Descubre cómo las recompensas dispersas en el aprendizaje por refuerzo mejoran la ciberdefensa, ofreciendo políticas más seguras y efectivas que las densas.

2026-06-05 · 2 min

Riesgos de alineación en entrenamiento RL que busca capacidades

Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.

2026-06-05 · 2 min

Aprendizaje por refuerzo profundo estable con representaciones gaussianas isotrópicas

Descubre cómo las representaciones gaussianas isotrópicas mejoran la estabilidad en aprendizaje por refuerzo profundo, reduciendo colapso de representación y neuronas inactivas.

2026-06-05 · 2 min

GIPO: Optimización de Políticas con Muestreo por Importancia Gaussiano

GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.

2026-06-05 · 2 min

¿Es la diversidad clave para la manipulación robótica escalable?

Investigación revela que la diversidad de tareas es más crítica que la cantidad de demostraciones. Aprende a escalar datos robóticos eficazmente.

2026-06-05 · 2 min

Aprendizaje de autocorrección en modelos visión-lenguaje mediante aumento de trayectorias

Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.

2026-06-05 · 2 min

Agentic Monte Carlo: Aprendizaje por Refuerzo en Agentes Caja Negra

Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.

2026-06-05 · 2 min

SHALA-LLM: Manejo Inteligente de Etiquetas Ambiguas en Alineación de LLMs

Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.

2026-06-05 · 2 min

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

Representation learning: la clave para escalar el RL multitarea

MR.Q demuestra que las representaciones predictivas escalan el RL multitarea sin planificación, superando a modelos del mundo.

2026-06-05 · 2 min

Modelos Mundiales de Difusión Autoregresiva para Evaluar Agentes LLM

Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.

2026-06-05 · 2 min

AsyncWebRL: RL multi-paso eficiente para agentes web visuales

Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.

2026-06-05 · 1 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min