Ataques backdoor generalizables en RLHF con triggers emocionales Descubre cómo GREAT genera ataques backdoor en RLHF usando desencadenantes emocionales. Revela nuevas vulnerabilidades en seguridad de IA. 2026-06-02 · 2 min