Casa Blanca exige a Anthropic blindar Fable 5; expertos lo ven imposible
La administración Trump exige a Anthropic que Fable 5 sea a prueba de jailbreaks. Expertos: es técnicamente imposible. Descubre por qué.
La administración Trump exige a Anthropic que Fable 5 sea a prueba de jailbreaks. Expertos: es técnicamente imposible. Descubre por qué.
PIVOT revoluciona la valoración de opciones: operador diferenciable que preserva precisión de Jäckel y reduce error MAE hasta 43%.
JAWS-Bench: un benchmark que evalúa ataques de jailbreak a agentes de IA. Descubre cómo los modelos de lenguaje ejecutan código malicioso y cómo defenderte.
¿Pueden las redes neuronales generar cualquier salida? Implica riesgos de jailbreak. Descubre cómo la sobreyectividad afecta la seguridad de tus modelos de IA.
Descubre AnchorKV, un método innovador para comprimir la caché KV de LLMs que mejora la seguridad frente a ataques jailbreak sin perder rendimiento. Ideal para
Analizamos la resistencia de Fable 5 y Opus 4.8 a miles de ataques automatizados. ¿Son realmente seguros? Descubre los sorprendentes resultados.
Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.
Claude Fable 5 fue bloqueado por el gobierno por 'seguridad nacional'. ¿El motivo? Pedirle que lea código. Conoce la verdad detrás de la polémica y quién
Descubre cómo MLingualFC revela vulnerabilidades de jailbreak en VLMs multilingües usando diagramas de flujo.
Descubre cómo el Process Mining revela patrones ocultos de resistencia y vulnerabilidad en LLMs ante ataques de Red Team, más allá de la simple tasa de éxito.
El Process Mining revela que GPT-OSS y Llama 3.3 tienen defensas estructuralmente distintas, más allá de la simple tasa de éxito. Descúbrelo aquí.
ClinicalBr, el primer benchmark bilingüe para evaluar LLM clínicos en portugués. Analizamos la brecha entre inglés y portugués en diagnóstico y tratamiento.
Descubre cómo los ataques CFD explotan brechas de procedencia en agentes LLM que usan herramientas, superando defensas actuales en hasta un 28%. Aprende a
Descubre cómo los modelos de razonamiento activan su conciencia de seguridad latente con SFT y DPO, reduciendo ataques hasta un 36%.
GAS-Leak-LLM usa algoritmos genéticos para crear sufijos adversariales y eludir la seguridad de los LLM en caja negra. Estudio revela vulnerabilidades.
Descubre cómo la seguridad computacional en IA generativa usa pruebas de hipótesis para detectar prompts maliciosos y contenido generado.
Killbench evalúa si podemos detener una IA maliciosa usando solo señales externas. Descubre los métodos y resultados en este benchmark.
¿GPU necesaria para seguridad de LLM? Los clasificadores CPU igualan rendimiento al 20% del coste. Descubre el pipeline GuardChain.
Un simple prompt 'arregla este código' provocó que EE.UU. bloqueara modelos de IA avanzados. ¿Realmente fue un jailbreak? Una experta en bug bounties lo desmiente.
EE.UU. impide acceso a modelos de IA de Anthropic a no ciudadanos, impulsando la urgencia de una soberanía digital europea. Conoce las implicaciones.