#retroalimentación humana

Minimización de arrepentimiento para aprendizaje de preferencias en LLMs

RePO minimiza el arrepentimiento para mejorar el aprendizaje de preferencias en LLMs. Resultados superiores en razonamiento y preferencias humanas. ¡Descúbrelo!

2026-06-16 · 1 min

Una visión unificadora sobre la incertidumbre de recompensa en RLHF

Descubre cómo la incertidumbre en RLHF se unifica con un modelo distribucional, mitigando el reward hacking. Clave para optimización robusta.

2026-06-16 · 2 min

Foresight: Razonamiento iterativo sobre pistas clave para navegación

Descubre Foresight, un marco de razonamiento iterativo que mejora un 37% el éxito de navegación y reduce un 52% las intervenciones en robots, usando VLMs.

2026-06-12 · 2 min

Consenso oculto: compresión de validez en feedback humano

El paper 'Hidden Consensus' revela cómo la agregación mayoritaria en RLHF oculta preferencias plurales. Descubre por qué la mayoría no mide alineación real.

2026-06-10 · 2 min

Optimización de Políticas Proximales Variacionales

Descubre VP2O, el nuevo marco de optimización variacional que logra +179 ELO en Codeforces y reduce un 32% los tokens en tareas matemáticas.

2026-06-09 · 1 min

Aprendizaje de recompensas con ranking MSE

R4: nuevo método de aprendizaje por refuerzo que aprende recompensas a partir de calificaciones humanas con garantías formales y rendimiento superior en robótica.

2026-06-05 · 2 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min

Ataques backdoor generalizables en RLHF con triggers emocionales

Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.

2026-06-02 · 2 min

Modelo bayesiano no negativo para mitigar hackeo de recompensas en RLHF

Descubre cómo el modelo bayesiano no negativo (BNRM) mitiga el hackeo de recompensas en RLHF, mejorando la robustez y la interpretabilidad de los modelos de lenguaje.

2026-06-02 · 2 min