#aprendizaje por refuerzo

SCALE: Planificación escalable de workflows agénticos con atención cruzada

SCALE es un planificador DRL que escala a clústeres de cualquier tamaño sin reentrenamiento, reduciendo el tiempo de respuesta hasta un 8.9%.

2026-06-08 · 2 min

Progress-SQL: Mejorando RL para Texto a SQL con Recompensas Progresivas

Progress-SQL: recompensas progresivas para mejorar generación de SQL con RL. Resultados en BIRD y Spider.

2026-06-08 · 2 min

JitRL: Aprendizaje Continuo en Agentes LLM Sin Gradientes

JitRL permite a agentes LLM aprender continuamente sin gradientes, reduciendo costes 30x y superando métodos tradicionales. Descúbrelo en Q2BSTUDIO.

2026-06-08 · 2 min

ViVa: Modelo generativo de video para aprendizaje por refuerzo en robots

ViVa usa video generativo para predecir el futuro del robot y evaluar el progreso, logrando un 80% de éxito en manipulación robótica.

2026-06-08 · 2 min

Modelado de políticas con LLM consciente de incertidumbre para RL con recompensas escasas

Descubre ULPS: un marco que integra LLM calibrados en RL para mejorar la eficiencia en entornos con recompensas escasas. Resultados prometedores en MiniGrid.

2026-06-08 · 2 min

Aprende a Emparejar: Matching Bilateral con Retroalimentación Temporal Extendida

Nuevo benchmark Learn2Match usa IA para optimizar mercados de emparejamiento bilateral con retroalimentación temporal. Mejora eficiencia y reduce regret.

2026-06-08 · 1 min

Variación de rendimiento en aprendizaje por refuerzo profundo

Descubre cómo la variación de rendimiento entre ejecuciones afecta a los algoritmos de RL y nuevas métricas basadas en percentiles para evaluarla.

2026-06-08 · 2 min

Aprender a emparejar: Emparejamiento bilateral con retroalimentación extendida

Descubre cómo MARL optimiza mercados de emparejamiento con retroalimentación extendida, superando a métodos tradicionales en bienestar social y regret.

2026-06-08 · 3 min

Variación de rendimiento en deep reinforcement learning

Descubre cómo la variación de rendimiento afecta a algoritmos de deep RL y nuevas métricas percentiles para evaluarla. Casos con PPO, SAC, DQN y más.

2026-06-08 · 1 min

GenPO++: Políticas generativas con razones de verosimilitud sin Jacobiano

Descubre GenPO++: un marco de optimización de políticas generativas con razones de verosimilitud exactas y sin Jacobiano para RL on-policy, mejorando estabilidad y eficiencia.

2026-06-08 · 2 min

RASFT: Ajuste Fino Adaptativo con Rollout para Razonamiento

Descubre RASFT, un nuevo método de fine-tuning que combina supervisión experta con rollouts adaptativos para mejorar el razonamiento en modelos de lenguaje. Res

2026-06-08 · 2 min

Aprendizaje de Modelos de Conducta con Preguntas y Sondas Adaptativas

Las preguntas adaptativas y sondas del modelo del mundo permiten entrenar agentes de IA que explican su comportamiento y se adaptan a cambios.

2026-06-08 · 3 min

Agentes LLM auto-evolutivos con optimización en distribución

Descubre Q-Evolve: un marco que permite a los agentes LLM auto-evolucionar optimizando en distribución, mejorando la toma de decisiones a largo plazo con recompensas dispersas.

2026-06-08 · 2 min

Locomoción todoterreno para rover planetario con suspensión activa

Descubre cómo un rover planetario con suspensión activa aprende a navegar terrenos extremos mediante IA y refuerzo, reduciendo el costo de transporte un 37%.

2026-06-08 · 2 min

Agentes LLM autoevolutivos con optimización en distribución

Q-Evolve permite que agentes LLM se automejoren con optimización en distribución, superando recompensas dispersas. Mayor eficiencia y robustez.

2026-06-08 · 2 min

Modelado generativo de estructuras latentes discretas con gradientes de política

GReinSS aplica gradientes de política dinámicos para modelar estructuras latentes discretas. Supera a RSEM en reconstrucción de isoformas de ARN.

2026-06-08 · 2 min

AutoTool: Selección Dinámica de Herramientas para Razonamiento de Agentes

Descubre AutoTool, un framework que permite a los modelos de lenguaje seleccionar herramientas dinámicamente, mejorando razonamiento matemático, código y multimodal hasta un 7.7%.

2026-06-08 · 3 min

SERNF: Ajuste eficiente de políticas diestras con flujos normalizantes

SERNF: ajuste fino eficiente de políticas diestras en robótica real. Usa flujos normalizantes y críticos por bloques para adaptación estable con pocas muestras.

2026-06-08 · 3 min

Locomoción todo terreno para rover planetario con suspensión articulada activa

Descubre cómo un rover planetario con suspensión activa aprende a navegar terrenos extremos. Reduce un 37% el costo de transporte en pendientes arenosas.

2026-06-08 · 2 min

AdaGRPO: Mejora adaptativa consciente de la capacidad para GRPO basado en flujo

Descubre AdaGRPO: algoritmo de RL adaptativo para modelos de flujo T2I. Mejora selección de prompts y estimación de ventajas. ¡Optimiza tu entrenamiento!

2026-06-08 · 2 min