#aprendizaje por refuerzo

Intercambio de curación humana por aumentación sintética en RLVR

Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.

2026-06-03 · 2 min

Taiji: Optimización Pareto para Recomendación Industrial con LLM

Descubre cómo Taiji optimiza recomendaciones industriales con LLM, equilibrando semántica e IDs de usuario. Resultados reales en Kuaishou.

2026-06-03 · 2 min

Sintetizar y Recompensar: Aprendizaje por Refuerzo para Herramientas Multi-Paso

Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.

2026-06-03 · 2 min

Aprendizaje por refuerzo con agente autorrefinado para navegación UAV con visión

AgenticRL usa un agente GPT para diseñar recompensas y refinar la navegación UAV con visión, logrando un 91% de éxito real y un 94% de precisión sim-real.

2026-06-03 · 2 min

Assistax: Benchmark de RL multiagente acelerado por hardware para robótica asistencial

Conoce Assistax, un benchmark open-source que acelera el entrenamiento de robots asistenciales con RL multiagente usando JAX. Hasta 370x más rápido que alternativas CPU.

2026-06-03 · 2 min

Portero humano con aprendizaje por refuerzo eficiente en fútbol

Nuevo método de aprendizaje por refuerzo crea porteros humanos en EA Sports FC 25. Supera a la IA nativa un 10% y entrena 50% más rápido.

2026-06-03 · 2 min

SHARP: ¿Quién merece la recompensa en sistemas multiagente?

Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!

2026-06-03 · 2 min

ASAP: Cómo mejorar la generalización en optimización combinatoria con IA

Descubre ASAP, un marco de IA que mejora la generalización en optimización combinatoria mediante adaptación rápida. Ideal para 3D-BPP, TSP y VRP.

2026-06-03 · 1 min

Aprendizaje por Refuerzo Multiagente Cooperativo Condicionado por Autómatas

Descubre ACC-MARL: un nuevo enfoque de aprendizaje por refuerzo multiagente que utiliza autómatas para coordinar tareas complejas de forma óptima y eficiente.

2026-06-03 · 2 min