Persona Attack: ataque jailbreak por inyección de memoria incremental
Descubre cómo Persona Attack inyecta memoria incremental en LLMs para eludir su seguridad, alcanzando un 95% de éxito. Aprende a proteger tus modelos.
Descubre cómo Persona Attack inyecta memoria incremental en LLMs para eludir su seguridad, alcanzando un 95% de éxito. Aprende a proteger tus modelos.
Descubre TukaBench, el primer benchmark cultural de jailbreak para lenguas africanas. Evalúa la seguridad de LLMs y la confiabilidad de los jueces automáticos.
Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.
¿Sabías que los modelos de IA multimodales son más vulnerables a ataques con video que con imágenes? Un estudio revela cómo el video multi-clip aumenta el éxito de los jailbreaks.
Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.
<meta content=Opir clasifica eficientemente toxicidad jailbreaks y discursos de odio. Descubre cómo esta herramienta optimiza la moderación de contenido.>
Explora la taxonomía de jailbreaks de audio en grandes modelos de audio-lenguaje, estrategias de ataque-defensa y evaluación de costos. Un análisis esencial sobre vulnerabilidades y defensas.
Aprende estrategias efectivas para mitigar el jailbreaking en Grandes Modelos de Lenguaje y proteger tus sistemas de inteligencia artificial.
SelfGrader detecta jailbreaks en modelos de lenguaje usando logits de token anclados. Un método eficaz y preciso para la seguridad de LLMs.