Difusión para coordinar políticas multiagente en línea
Descubre OMAD, el primer marco MARL en línea con políticas de difusión que mejora 2.5x a 5x la eficiencia de muestras en tareas multiagente.
Descubre OMAD, el primer marco MARL en línea con políticas de difusión que mejora 2.5x a 5x la eficiencia de muestras en tareas multiagente.
Planifica bajo cambios de distribución con POMDPs causales. Este marco mantiene la tractabilidad usando funciones de valor lineales convexas. Ideal para IA.
LSFlow: política de flujo esférico latente para RL con acciones combinatorias. Supera en 20.6% a métodos tradicionales, mejorando eficiencia y estabilidad.
Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.
ULD: algoritmo de RL que unifica eficiencia y representaciones sin sobrecarga de planificación. Supera a métodos especializados en 80 entornos.
Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.