Intercambio de curación humana por aumentación sintética en RLVR
Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.
Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.
Descubre cómo Taiji optimiza recomendaciones industriales con LLM, equilibrando semántica e IDs de usuario. Resultados reales en Kuaishou.
Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.
AgenticRL usa un agente GPT para diseñar recompensas y refinar la navegación UAV con visión, logrando un 91% de éxito real y un 94% de precisión sim-real.
Conoce Assistax, un benchmark open-source que acelera el entrenamiento de robots asistenciales con RL multiagente usando JAX. Hasta 370x más rápido que alternativas CPU.
Nuevo método de aprendizaje por refuerzo crea porteros humanos en EA Sports FC 25. Supera a la IA nativa un 10% y entrena 50% más rápido.
Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!
Descubre ASAP, un marco de IA que mejora la generalización en optimización combinatoria mediante adaptación rápida. Ideal para 3D-BPP, TSP y VRP.
Descubre ACC-MARL: un nuevo enfoque de aprendizaje por refuerzo multiagente que utiliza autómatas para coordinar tareas complejas de forma óptima y eficiente.
Descubre cómo aceleración GPU 30,000x y Transformers entrenan flotas de vehículos autónomos para seguimiento acústico submarino con errores <5m.
Novedoso aprendizaje por refuerzo robusto con currículo adaptativo protege UAV contra suplantación GNSS, logrando 100% éxito.