#rlhf

Debate de Agentes con Principios: Arbitraje contra Sicofanía en LLMs

Descubre cómo el debate adversarial entre modelos con principios reduce la sicofanía en LLMs, logrando hasta un 53% de precisión con arbitraje ciego.

2026-06-09 · 2 min

Optimización de Preferencias Multiobjetivo para Modelos Generativos

MOPO optimiza preferencias multiobjetivo en modelos generativos, mejorando la alineación humana al equilibrar utilidad e inofensividad. ¡Conócelo!

2026-06-08 · 1 min

EvalStop: Detección de Sobreoptimización de Recompensa en RLHF

EvalStop detecta y corrige sobreoptimización de recompensa en RLHF multiusuario con 98% precisión, mejora JCT 9% y reduce cómputo desperdiciado 22%.

2026-06-04 · 4 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min

Dilema representación-racionalización en aprendizaje de recompensas

Descubre el dilema entre representación y racionalización en RLHF: cómo el embedding afecta la consistencia de las recompensas y los límites de la optimización.

2026-06-02 · 2 min

Ataques backdoor generalizables en RLHF con triggers emocionales

Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA.

2026-06-02 · 2 min

ActiveUltraFeedback: generación eficiente de datos de preferencia

ActiveUltraFeedback: aprendizaje activo para generar datos de preferencia con solo un sexto de los datos, mejorando el alineamiento de LLMs.

2026-06-02 · 2 min

Protocolo BFT para deliberación colaborativa emergente en sistemas multi-IA

El Protocolo Consilium usa BFT para deliberación multi-IA: las personas cognitivas importan más que el modelo. Sesgos RLHF revelados. Costo: $217.

2026-06-02 · 3 min

Aislando el sesgo léxico en LLM: métrica triangulada sin curación

Aprende sobre la métrica Triangulated Preference Shift que aísla sesgos léxicos inducidos por RLHF sin curación manual. Ideal para desarrollo de IA confiable.

2026-06-02 · 1 min

Aprendizaje de preferencias calibrado: ranking de etiquetas

Descubre cómo la calibración mejora la precisión en rankings de etiquetas y su aplicación en RLHF.

2026-06-01 · 3 min