#objetivos ocultos

PRISM: Recuperando conjuntos de instrucciones de activaciones

PRISM decodifica las instrucciones activas en modelos de lenguaje. Un nuevo enfoque para monitorizar agentes de IA ante inyecciones y objetivos ocultos.

2026-06-09 · 2 min