Debate de Agentes con Principios: Arbitraje contra Sicofanía en LLMs
Descubre cómo el debate adversarial entre modelos con principios reduce la sicofanía en LLMs, logrando hasta un 53% de precisión con arbitraje ciego.
Descubre cómo el debate adversarial entre modelos con principios reduce la sicofanía en LLMs, logrando hasta un 53% de precisión con arbitraje ciego.
MOPO optimiza preferencias multiobjetivo en modelos generativos, mejorando la alineación humana al equilibrar utilidad e inofensividad. ¡Conócelo!
EvalStop detecta y corrige sobreoptimización de recompensa en RLHF multiusuario con 98% precisión, mejora JCT 9% y reduce cómputo desperdiciado 22%.
Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.
Descubre el dilema entre representación y racionalización en RLHF: cómo el embedding afecta la consistencia de las recompensas y los límites de la optimización.
Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.
ActiveUltraFeedback: aprendizaje activo para generar datos de preferencia con solo un sexto de los datos, mejorando el alineamiento de LLMs.
El Protocolo Consilium usa BFT para deliberación multi-IA: las personas cognitivas importan más que el modelo. Sesgos RLHF revelados. Costo: $217.
Aprende sobre la métrica Triangulated Preference Shift que aísla sesgos léxicos inducidos por RLHF sin curación manual. Ideal para desarrollo de IA confiable.
Descubre cómo la calibración mejora la precisión en rankings de etiquetas y su aplicación en RLHF.