SkillPyramid: Marco de consolidación jerárquica para agentes autoevolutivos
Descubre SkillPyramid, un marco jerárquico que consolida habilidades en agentes de IA autoevolutivos, aumentando recompensa un 38% y reduciendo pasos un 27%.
Descubre SkillPyramid, un marco jerárquico que consolida habilidades en agentes de IA autoevolutivos, aumentando recompensa un 38% y reduciendo pasos un 27%.
Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.
Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.
Un estudio revela que el entrenamiento por consistencia puede afianzar la desalineación en modelos de IA. Descubre sus efectos contradictorios en la alineación.
Descubre cómo Taiji optimiza recomendaciones industriales con LLM, equilibrando semántica e IDs de usuario. Resultados reales en Kuaishou.
Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.
Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!
Descubre HARVE, método sin entrenamiento que edita el vector de cabeza de recompensa para proteger modelos de lenguaje del hackeo, manteniendo su rendimiento.
Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.
Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
GEAR mitiga la propagación de crédito falso en RL con rubricas, logrando mejoras del 15.5% y reduciendo errores un 96.5%. Conoce cómo.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre cómo medir la equidad en deep reinforcement learning para descubrimiento de fármacos en salud, evaluando sesgos en datos, recompensas y diversidad química.
Descubre cómo evitar el sesgo sistémico en RL auto-recompensante y mejorar el rendimiento de LLMs con nuestro método RLER. ¡Lee aquí!
El reward hacking en difusión proviene de la estimación finita de la función h. Proponemos una corrección sin costo y aclaramos el best-of-n.
XIPER: modelo de recompensa con predicción de video para aprender de videos expertos cross-domain. Supera brechas de color, morfología y sim-to-real.
DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.
Descubre cómo H-EARS mejora eficiencia energética y estabilidad en RL con recompensas híbridas guiadas por física. Resultados en benchmarks y simulaciones.