RLVR: el costo oculto de olvidar problemas resueltos
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
Descubre el fenómeno de rotación del conjunto correcto en RLVR, donde modelos olvidan problemas resueltos. Conoce REMIND, una técnica que mejora la retención sin costo adicional.
El aprendizaje por refuerzo profundo optimiza la estimulación de implantes epirretinianos para generar imágenes claras. Un avance para restaurar la visión.
¿RLVR olvida lo que aprendió? Descubre la rotación del conjunto correcto y cómo Remind lo corrige sin coste. Mejora tus modelos.
FGRPO optimiza modelos de razonamiento con agregación adaptativa en datos no IID, preservando privacidad.
Descubre cómo el aprendizaje por refuerzo profundo optimiza los implantes epirretinianos para generar imágenes más claras. Un avance clave en visión artificial contra la degeneración retinal.
Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
GEAR mitiga la propagación de crédito falso en RL con rubricas, logrando mejoras del 15.5% y reduciendo errores un 96.5%. Conoce cómo.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Descubre cómo Multi², un marco jerárquico multiagente con LLMs, evita la deriva de objetivos y mejora la toma de decisiones en entornos interactivos. ¡Lee más!
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre cómo medir la equidad en deep reinforcement learning para descubrimiento de fármacos en salud, evaluando sesgos en datos, recompensas y diversidad química.
Descubre cómo las actualizaciones periódicas y suaves de objetivo garantizan la convergencia del Q-learning lineal, según un riguroso análisis teórico.
Descubre cómo ASymPO optimiza el post-entrenamiento asíncrono de LLMs sin probabilidades de comportamiento, mejorando estabilidad y rendimiento.
Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.
Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.
XIPER: modelo de recompensa con predicción de video para aprender de videos expertos cross-domain. Supera brechas de color, morfología y sim-to-real.
Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.
AirDreamer: navegación de drones con modelos del mundo. Logra un 5.3% más de éxito en entornos desconocidos. Transferencia sim-to-real sin ajustes.
Descubre cómo el aprendizaje por refuerzo con asesoría experta y control de incertidumbre mejora la seguridad en la conducción autónoma. Resultados en CARLA.