#jailbreak

Persona Attack: ataque jailbreak por inyección de memoria incremental

Descubre cómo Persona Attack inyecta memoria incremental en LLMs para eludir su seguridad, alcanzando un 95% de éxito. Aprende a proteger tus modelos.

2026-06-02 · 2 min

TukaBench: Un benchmark de jailbreak para lenguas africanas

Descubre TukaBench, el primer benchmark cultural de jailbreak para lenguas africanas. Evalúa la seguridad de LLMs y la confiabilidad de los jueces automáticos.

2026-06-02 · 1 min

THRD: Defensa sin entrenamiento para ataques multi-turno en LLMs

Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.

2026-06-02 · 2 min

Jailbreaking en MLLMs usando video multi-clip

¿Sabías que los modelos de IA multimodales son más vulnerables a ataques con video que con imágenes? Un estudio revela cómo el video multi-clip aumenta el éxito de los jailbreaks.

2026-06-02 · 2 min

Mecanismos duales de expresión de valores: intrínsecos vs. inducidos en LLMs

Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.

2026-06-01 · 1 min

Opir: Clasificación eficiente de seguridad multitarea para toxicidad, jailbreaks, discursos de odio y contenido dañino

2026-05-29 · 2 min

Jailbreaks de Audio en Grandes Modelos de Audio-Lenguaje: Taxonomía, Análisis de Ataque-Defensa y Evaluación Consciente del Costo

Explora la taxonomía de jailbreaks de audio en grandes modelos de audio-lenguaje, estrategias de ataque-defensa y evaluación de costos. Un análisis esencial sobre vulnerabilidades y defensas.

2026-05-29 · 2 min