Hacia máquinas que rechazan solicitudes responsablemente
Descubre cómo las máquinas inteligentes pueden negarse responsablemente: justificaciones, anulación y riesgos de seguridad.
Descubre cómo las máquinas inteligentes pueden negarse responsablemente: justificaciones, anulación y riesgos de seguridad.
Investigación revela que una red neuronal de ajedrez tiene la solución correcta pero la anula por sesgos de seguridad. El algoritmo no es el comportamiento.
Descubre cómo los modelos de lenguaje mantienen prioridades léxicas al ser anuladas, según estudio con paradigma Stroop. Implicaciones para IA.