#aprendizaje por refuerzo

Límites de arrepentimiento dependientes de datos y varianza en MDPs tabulares

Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.

2026-06-03 · 2 min

Representaciones Laplacianas para Planificación en Tiempo de Decisión

Descubre cómo las representaciones Laplacianas mejoran la planificación en tiempo de decisión en RL, descomponiendo problemas complejos en subobjetivos. El algo

2026-06-03 · 2 min

Estrategia Minimax Óptima para Observaciones Retrasadas en Aprendizaje por Refuerzo Online

Descubre la estrategia Minimax óptima para RL con observaciones retrasadas. Logra cotas de arrepentimiento ajustadas en MDPs tabulares.

2026-06-03 · 1 min

Corrección cuántica autónoma de errores vía aprendizaje por refuerzo profundo

El aprendizaje por refuerzo profundo con currículo descubre códigos bosónicos óptimos para corrección cuántica autónoma, superando pérdidas de fotones.

2026-06-03 · 2 min

LC-SAC: Control de trayectorias con Lyapunov y Koopman

Descubre LC-SAC, un algoritmo de RL que garantiza estabilidad en sistemas críticos usando Lyapunov y Koopman. Ideal para control de drones.

2026-06-03 · 1 min

Apuestas adaptativas para pruebas con horizonte temporal

Descubre cómo un agente DQN aprende a apostar óptimamente en pruebas con horizonte, superando a métodos clásicos. Optimiza tus pruebas.

2026-06-03 · 3 min

Conjunto semi-algebraico de valor en POMDPs

Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.

2026-06-03 · 3 min

Robustez post-hoc para aprendizaje por refuerzo basado en modelos

Mejora la robustez de agentes de RL en inferencia sin entrenar, usando control predictivo con rollouts adversariales y mitigando problemas fuera de distribución.

2026-06-03 · 1 min

Verificación condicionada por confianza en RL en tiempo de prueba

Descubre cómo TTRL-CoCoV mejora Pass@k y Pass@1 en razonamiento complejo sin etiquetas, usando verificación condicionada por confianza.

2026-06-03 · 2 min

Optimización con herramientas y entropía para RL agente eficiente

Descubre TAO-RL, el nuevo marco que combina filtrado de trayectorias con exploración guiada por entropía para optimizar el razonamiento de LLMs con herramientas. Mejora la eficiencia y precisión.

2026-06-03 · 3 min

Intercambio de curación humana por aumentación sintética en RLVR

Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.

2026-06-03 · 2 min

Taiji: Optimización Pareto para Recomendación Industrial con LLM

Descubre cómo Taiji optimiza recomendaciones industriales con LLM, equilibrando semántica e IDs de usuario. Resultados reales en Kuaishou.

2026-06-03 · 2 min

Sintetizar y Recompensar: Aprendizaje por Refuerzo para Herramientas Multi-Paso

Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.

2026-06-03 · 2 min

Aprendizaje por refuerzo con agente autorrefinado para navegación UAV con visión

AgenticRL usa un agente GPT para diseñar recompensas y refinar la navegación UAV con visión, logrando un 91% de éxito real y un 94% de precisión sim-real.

2026-06-03 · 2 min

Assistax: Benchmark de RL multiagente acelerado por hardware para robótica asistencial

Conoce Assistax, un benchmark open-source que acelera el entrenamiento de robots asistenciales con RL multiagente usando JAX. Hasta 370x más rápido que alternativas CPU.

2026-06-03 · 2 min

Portero humano con aprendizaje por refuerzo eficiente en fútbol

Nuevo método de aprendizaje por refuerzo crea porteros humanos en EA Sports FC 25. Supera a la IA nativa un 10% y entrena 50% más rápido.

2026-06-03 · 2 min

SHARP: ¿Quién merece la recompensa en sistemas multiagente?

Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!

2026-06-03 · 2 min

ASAP: Cómo mejorar la generalización en optimización combinatoria con IA

Descubre ASAP, un marco de IA que mejora la generalización en optimización combinatoria mediante adaptación rápida. Ideal para 3D-BPP, TSP y VRP.

2026-06-03 · 1 min

Aprendizaje por Refuerzo Multiagente Cooperativo Condicionado por Autómatas

Descubre ACC-MARL: un nuevo enfoque de aprendizaje por refuerzo multiagente que utiliza autómatas para coordinar tareas complejas de forma óptima y eficiente.

2026-06-03 · 2 min

Escalando MARL para Seguimiento Acústico Submarino con Vehículos Autónomos

Descubre cómo aceleración GPU 30,000x y Transformers entrenan flotas de vehículos autónomos para seguimiento acústico submarino con errores <5m.

2026-06-03 · 2 min