#jailbreaking

VERA: Marco de inferencia variacional para jailbreaking de LLMs

Descubre VERA, un framework de inferencia variacional que genera prompts adversariales para identificar vulnerabilidades en LLMs sin reoptimización.

2026-06-02 · 1 min

Autoresearch descubre ataques adversariales avanzados para LLMs

Descubre cómo la IA logra encontrar nuevos métodos de ataque adversarial contra LLMs, superando defensas avanzadas con tasas de éxito del 80% y 100%.

2026-06-02 · 2 min

Jailbreaking en MLLMs usando video multi-clip

¿Sabías que los modelos de IA multimodales son más vulnerables a ataques con video que con imágenes? Un estudio revela cómo el video multi-clip aumenta el éxito de los jailbreaks.

2026-06-02 · 2 min

Mecanismos duales de expresión de valores: intrínsecos vs. inducidos en LLMs

Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.

2026-06-01 · 1 min

Jailbreaking y Mitigación de Vulnerabilidades en Grandes Modelos de Lenguaje

Aprende estrategias efectivas para mitigar el jailbreaking en Grandes Modelos de Lenguaje y proteger tus sistemas de inteligencia artificial.

2026-05-29 · 1 min

VERA-V: Marco de Inferencia Variacional para Jailbreaking de Modelos de Visión-Lenguaje

2026-05-27 · 2 min