ULD: Unificando eficiencia y representaciones en RL
ULD: algoritmo de RL que unifica eficiencia y representaciones sin sobrecarga de planificación. Supera a métodos especializados en 80 entornos.
ULD: algoritmo de RL que unifica eficiencia y representaciones sin sobrecarga de planificación. Supera a métodos especializados en 80 entornos.
Optimiza MARL escalable con un marco de localidad que descompone sensibilidad. Descubre cómo el control de temperatura softmax mejora la eficiencia.
Nuevo método COP-Q mejora la seguridad y eficiencia en control robótico usando Proyección de Cholesky.
Descubre MusaCoder, un marco de entrenamiento full-stack para generar kernels GPU nativos. Combina síntesis de datos, ajuste por rechazo y aprendizaje por refue
Descubre cómo la interacción humano-IA crea una super-política que supera al aprendizaje por refuerzo tradicional, incluso con confusión.
Exploración aleatoria (Thompson sampling) logra arrepentimiento óptimo en bandidos lineales con espacios convexos. ¡Un avance clave!
El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral.
Descubre cómo el aprendizaje por refuerzo en contexto mejora la calidad del razonamiento en IA, asignando mayor peso a demostraciones efectivas.
Descubre OAR un nuevo método de GRPO que asigna crédito fino a cada token en razonamiento matemático mejorando el rendimiento sin costo computacional adicional
Descubre cómo un currículo de RL permite a LLMs generalizar procedimientos entre código y lenguaje natural, igualando a GPT-4o.
¿El entrelazamiento cuántico mejora juegos adversariales? Un estudio muestra ventaja competitiva en Pong con circuitos cuánticos.
Descubre ContactExplorer, un método que usa cobertura de contacto para guiar la exploración en manipulación diestra, mejorando eficiencia y tasa de éxito en tareas complejas.
Descubre cómo Policy Split mejora la exploración dual en LLMs con regularización de entropía para mayor precisión y creatividad.
Descubre cómo el aprendizaje por refuerzo multitarea contextual permite a vehículos submarinos adaptarse a corrientes para monitorear arrecifes.
Descubre SDPG, un marco de gradiente de política autodestilada que estabiliza el entrenamiento de LLMs mediante autorefuerzo y ventajas de grupo.
Descubre por qué los selectores offline no superan al modelo único en predicción de abandono de edX. Diagnóstico revela el cuello de botella y próximos pasos.
Aplicar RL durante el preentrenamiento de LLM mejora rendimiento, superando al enfoque SFT→RL. Fusionar RL y SFT da mejores resultados sin perder capacidades.
Descubre cómo nuestro algoritmo combina datos offline y exploración online en bandidos lineales para minimizar el arrepentimiento. Resultados empíricos demuestran su eficacia.
Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.
EMTC mejora la consistencia temporal en memoria episódica para MARL cooperativo, superando cuellos de botella y logrando hasta un 28% de mejora en benchmarks.