#seguridad llm

Red-Teaming culturalmente adaptado: análisis comparativo en Asia

La traducción directa subestima riesgos en LLMs. Este análisis en 4 idiomas asiáticos muestra cómo el red-teaming culturalmente adaptado revela amenazas reales.

2026-06-16 · 2 min

Mejorando seguridad de LLM mediante juego minimax

Descubre cómo un innovador marco de juego minimax mejora la seguridad de los LLM multilingües, generando datos sintéticos y superando en rendimiento a modelos

2026-06-16 · 1 min

CHILLGuard: Guardarraíl granular para seguridad de LLM chinos

Descubre CHILLGuard, el nuevo guardarraíl de seguridad para LLM chinos con taxonomía fina de riesgos y alineación de preferencias. Mejora del 15.92% en F1.

2026-06-16 · 3 min

El proxy sabe demasiado: sellado de routers LLM con TEEs

¿Sabías que el proxy de tu API de LLM puede leer y modificar tus datos? AEGIS lo evita con TEEs atestiguados.

2026-06-16 · 3 min

GuardNet: Redes superficiales contra inyección de prompts y jailbreak

GuardNet combina redes neuronales superficiales para detectar ataques a LLMs. Logra AUROC 0.747 en benchmark ciego con solo 50ms de latencia. Ideal para producción.

2026-06-06 · 2 min

TamperBench: Evaluación de seguridad en LLM bajo ajuste y manipulación

Descubre TamperBench, el primer marco unificado para evaluar la resistencia de LLMs a manipulaciones y ajustes finos. Resultados clave y código abierto.

2026-06-04 · 3 min

Inconsistencia descripción-código en MCP: medición, detección y seguridad

Descubre cómo las inconsistencias entre descripciones y código en servidores MCP afectan la seguridad de los LLMs y cómo DCIChecker las detecta.

2026-06-04 · 2 min

Inicializaciones de ataques jailbreak como extractores de cumplimiento

Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.

2026-06-03 · 2 min

D-Judge: Desbaratando jailbreaks multi-turno con reescritura semántica

D-Judge reescribe respuestas preservando semántica para desviar ataques multi-turno, reduciendo el éxito de jailbreaks en LLMs.

2026-06-03 · 2 min

Descubriendo vulnerabilidades en LLMs con evolución calidad-diversidad

Nuevo método evolutivo basado en MAP-Elites revela vulnerabilidades específicas en modelos como GPT-4o y Claude, mejorando la seguridad y robustez de los LLMs.

2026-06-02 · 2 min