#aprendizaje por refuerzo

Aprendizaje por refuerzo con regularización KL y mala especificación

Descubre cómo la regularización KL mejora el aprendizaje por refuerzo ante modelos incorrectos. Nuevas garantías teóricas para algoritmos robustos. ¡Lee más!

2026-06-05 · 2 min

MDP-GRPO: Optimización de Políticas Grupales Estabilizada para Instrucciones Multi-Restricción

Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.

2026-06-05 · 1 min

Estimaciones de ventaja para gradientes de política Max@K

Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.

2026-06-05 · 1 min

OrderGrad: optimiza más allá de la media con gradientes de estadísticos de orden

Descubre OrderGrad, un método unificado para optimizar objetivos de estadísticos de orden como VaR, CVaR y medias recortadas en aprendizaje por refuerzo. Ideal para tareas de riesgo y robustez.

2026-06-05 · 3 min

Abstracciones estado-acción adaptativas por distorsión de tasa

Descubre cómo el principio de refinamiento dinámico de abstracciones mejora el aprendizaje por refuerzo, usando distorsión de tasa para lograr rendimiento óptimo con compresión.

2026-06-05 · 3 min

Optimización de córner con aprendizaje por refuerzo gráfico

Optimiza tácticas de córner con RL gráfico. Supera a métodos tradicionales en 3000+ jugadas de la Premier League.

2026-06-05 · 2 min

AgentJet: Marco de entrenamiento enjambre para RL agentivo

AgentJet: marco enjambre para RL agentivo. Entrena agentes heterogéneos con tolerancia a fallos, edición en vivo y acelera 10x. Ideal para investigadores.

2026-06-04 · 2 min

Escalando Agentes Auto-Evolutivos con Memoria Paramétrica

Marco TMEM: agentes IA auto-evolutivos con memoria paramétrica y LoRA. Aprenden de la experiencia, mejorando su comportamiento sin reinicios.

2026-06-04 · 2 min

Neetyabhas: marco para políticas públicas con incertidumbre en modelos de agente

Descubre cómo Neetyabhas optimiza políticas públicas con incertidumbre y comportamiento. Un enfoque basado en IA.

2026-06-04 · 2 min

SCI-PRM: Un modelo de recompensa de proceso para verificación científica

Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.

2026-06-04 · 2 min

Fog of Love: Agentes virtuosos con aprendizaje por refuerzo basado en afinidad

Descubre cómo la afinidad localizada mejora el aprendizaje por refuerzo para crear agentes de IA virtuosos en el juego Fog of Love. Resultados superiores.

2026-06-04 · 2 min

Posición: El aprendizaje por refuerzo desplegado debe ser continuo

¿Por qué los agentes de RL desplegados deben aprender continuamente? Descubre las razones y ventajas frente al modelo entrenar-luego-arreglar.

2026-06-04 · 2 min

RUBAS: Aprendizaje por Refuerzo Basado en Rúbricas para Seguridad de Agentes

RUBAS: aprendizaje por refuerzo con rúbricas para agentes seguros. Mejora la seguridad, reduce alucinaciones y mantiene la utilidad en herramientas.

2026-06-04 · 2 min

Caracterización de conjuntos de metas en el álgebra booleana de tareas

Descubre cómo la caracterización de conjuntos de metas en el álgebra booleana de tareas reduce costos de aprendizaje y tiempo de composición en RL.

2026-06-04 · 2 min

Reescritura de consultas con integridad contextual para privacidad en LLM

Descubre cómo reescribir consultas a LLM protegiendo datos sensibles sin perder utilidad. Nuevo método basado en integridad contextual y benchmark DelegateCI.

2026-06-04 · 3 min

Modelos de lenguaje: hackeo de recompensas y sociedad

Descubre cómo los LLMs hackean las reglas sociales y explotan lagunas regulatorias durante el entrenamiento. Implicaciones para la seguridad y la ética de la IA.

2026-06-04 · 2 min

SaliMory: Orquestando la memoria cognitiva para agentes conversacionales

SALIMORY: marco IA con recompensa por etapas para memoria cognitiva. Reduce fallos un 33% y supera en 10% a SOTA. Mejora personalización.

2026-06-04 · 3 min

Expansión justa de metro con aprendizaje por refuerzo tabular

Descubre cómo el aprendizaje por refuerzo tabular expande redes de metro de forma justa y eficiente, reduciendo emisiones y costes frente al deep RL.

2026-06-04 · 2 min

Desaprendizaje exacto en aprendizaje por refuerzo

Descubre cómo un nuevo algoritmo de RL permite eliminar datos de usuarios de forma exacta y eficiente, reduciendo el costo computacional. ¡Optimiza la privacidad!

2026-06-04 · 2 min

Campos de Ventaja Dual

Aprende cómo Campos de Ventaja Dual optimiza políticas en RL off-line con ventajas locales precisas.

2026-06-04 · 1 min