Partición causal preregistrada de elicitación y diseño de recompensas en RLVR
Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.
Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados.
Descubre cómo TD(0) con aproximación lineal logra una convergencia rápida y robusta, con tasa óptima de 1/k y sin depender del menor autovalor. Ideal para aprendizaje por refuerzo.
MA-AC-MPC: fusión de control predictivo y RL multiagente para estrategias cooperativas seguras. Logra 100% de éxito en hardware con drones y robots.
Descubre TLA-Prover, el modelo de IA que sintetiza especificaciones TLA+ verificables con un 30% de tasa de éxito, superando en 3.5x a los modelos previos.
Descubre DNQ: un marco que entrena agentes con equilibrios de Nash en juegos competitivos. Escalable a muchos jugadores.
Descubre EVILL, un revolucionario método de exploración para bandidos estocásticos. A diferencia de PHE, usa perturbaciones lineales en la pérdida para lograr mejores resultados. Ideal para IA.
R4: nuevo método de aprendizaje por refuerzo que aprende recompensas a partir de calificaciones humanas con garantías formales y rendimiento superior en robótica.
Descubre cómo las recompensas dispersas en el aprendizaje por refuerzo mejoran la ciberdefensa, ofreciendo políticas más seguras y efectivas que las densas.
Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.
Descubre cómo las representaciones gaussianas isotrópicas mejoran la estabilidad en aprendizaje por refuerzo profundo, reduciendo colapso de representación y neuronas inactivas.
GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.
Investigación revela que la diversidad de tareas es más crítica que la cantidad de demostraciones. Aprende a escalar datos robóticos eficazmente.
Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.
Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.
Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
MR.Q demuestra que las representaciones predictivas escalan el RL multitarea sin planificación, superando a modelos del mundo.
Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.
Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.