Riesgos de alineación en entrenamiento RL que busca capacidades Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar. 2026-06-05 · 2 min