Red-Teaming culturalmente adaptado: análisis comparativo en Asia
La traducción directa subestima riesgos en LLMs. Este análisis en 4 idiomas asiáticos muestra cómo el red-teaming culturalmente adaptado revela amenazas reales.
La traducción directa subestima riesgos en LLMs. Este análisis en 4 idiomas asiáticos muestra cómo el red-teaming culturalmente adaptado revela amenazas reales.
Descubre cómo un innovador marco de juego minimax mejora la seguridad de los LLM multilingües, generando datos sintéticos y superando en rendimiento a modelos
Descubre CHILLGuard, el nuevo guardarraíl de seguridad para LLM chinos con taxonomía fina de riesgos y alineación de preferencias. Mejora del 15.92% en F1.
¿Sabías que el proxy de tu API de LLM puede leer y modificar tus datos? AEGIS lo evita con TEEs atestiguados.
GuardNet combina redes neuronales superficiales para detectar ataques a LLMs. Logra AUROC 0.747 en benchmark ciego con solo 50ms de latencia. Ideal para producción.
Descubre TamperBench, el primer marco unificado para evaluar la resistencia de LLMs a manipulaciones y ajustes finos. Resultados clave y código abierto.
Descubre cómo las inconsistencias entre descripciones y código en servidores MCP afectan la seguridad de los LLMs y cómo DCIChecker las detecta.
Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.
D-Judge reescribe respuestas preservando semántica para desviar ataques multi-turno, reduciendo el éxito de jailbreaks en LLMs.
Nuevo método evolutivo basado en MAP-Elites revela vulnerabilidades específicas en modelos como GPT-4o y Claude, mejorando la seguridad y robustez de los LLMs.