#métricas proxy

Riesgos de alineación en entrenamiento RL que busca capacidades

Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.

2026-06-05 · 2 min