El superpoder de seguridad de Anthropic
Anthropic lanza Fable, su modelo más potente, pero genera polémica por políticas de datos y conflicto con el gobierno. ¿Seguridad real o marketing?
Anthropic lanza Fable, su modelo más potente, pero genera polémica por políticas de datos y conflicto con el gobierno. ¿Seguridad real o marketing?
El gobierno de EE.UU. desconecta los modelos de IA de Anthropic para usuarios globales. Europa y Canadá alertan sobre la dependencia tecnológica. Lee las implicaciones.
FreoStream: guardarriles de streaming que usan razonamiento futuro para evitar sobre-rechazos y detectar jailbreaks. Optimización alineada a seguridad.
Descubre cómo las intervenciones en LLMs generan efectos secundarios no deseados. Analizamos subespacios compartidos y su impacto en el control de seguridad.
Los ataques DoS a guardrails de LLM pueden amplificar la latencia hasta 148x. Un solo documento envenenado puede paralizar sistemas completos. Descúbrelo aquí.
Descubre NeST, un método de alineación de seguridad para LLMs que reduce ataques de jailbreak del 44.5% al 1.1% con solo 0.4M parámetros.
Anthropic desactiva Claude Fable 5 y Mythos 5 por orden del gobierno de EE.UU. ante un supuesto jailbreak. Descubre qué pasó y cómo afecta a desarrolladores.
Las advertencias de seguridad de Anthropic resultan contraproducentes: el gobierno ordena retirar su modelo de IA más potente por un jailbreak. ¿Qué implica para el futuro de la IA?
Anthropic desmiente el supuesto jailbreak de Fable 5 IA. Descubre por qué aseguran que no es una vulnerabilidad real y qué implica para la seguridad.
Fable 5, el modelo Mythos de Anthropic, fue jailbreakeado en 24h. Conoce los detalles del leak, la fuga del prompt y la controversia por restricciones ocultas.
Descubre cómo los modelos de lenguaje avanzados detectan inserciones en su historial y cómo esto afecta las evaluaciones de seguridad y alineación.
Descubre FENCE, el primer dataset bilingüe multimodal para detectar jailbreak en sistemas financieros de IA. Entrena detectores robustos y protege tus modelos.
Un nuevo estudio cuantifica la transferencia subliminal al destilar modelos de lenguaje. Llama-2 y Qwen2.5 muestran patrones distintos.
Aprende cómo la evaluación basada en presión computacional (FLOPs) expone la verdadera robustez de los LLMs frente a ataques adversariales. Resultados sorprendentes.
JailbreakOPT optimiza prompts de jailbreak iterativamente, mejorando la tasa de éxito y reduciendo consultas necesarias. Aumenta la eficacia de tus ataques.
Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!
Descubre cómo AutoInject usa aprendizaje por refuerzo para automatizar la inyección de prompts en LLMs, superando defensas avanzadas. ¡Lee más!
Descubre cómo el ataque CodeSpear explota la decodificación con gramática para que LLMs generen código malicioso. Conoce CodeShield, la defensa.
BadRobot revela cómo agentes LLM en robots pueden ser manipulados para acciones peligrosas. Conoce el ataque y cómo proteger tus sistemas de IA.
Descubre PLAGUE, marco plug-and-play que logra jailbreak en GPT-4 y Claude con más del 80% de éxito. Ideal para red teaming y evaluación de seguridad.