#función de valor

Difusión para coordinar políticas multiagente en línea

Descubre OMAD, el primer marco MARL en línea con políticas de difusión que mejora 2.5x a 5x la eficiencia de muestras en tareas multiagente.

2026-06-11 · 1 min

Planificación bajo cambios de distribución con POMDPs causales

Planifica bajo cambios de distribución con POMDPs causales. Este marco mantiene la tractabilidad usando funciones de valor lineales convexas. Ideal para IA.

2026-06-11 · 2 min

Flujo esférico latente para RL con acciones combinatorias

LSFlow: política de flujo esférico latente para RL con acciones combinatorias. Supera en 20.6% a métodos tradicionales, mejorando eficiencia y estabilidad.

2026-06-09 · 2 min

Tasa robusta O(1/√T) para aprendizaje TD sin proyección

Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.

2026-06-09 · 2 min