#lbr · DeepCodeNews

El superpoder de seguridad de Anthropic

Anthropic lanza Fable, su modelo más potente, pero genera polémica por políticas de datos y conflicto con el gobierno. ¿Seguridad real o marketing?

2026-06-15 · 3 min

El apagón de Anthropic: soberanía global de la IA

El gobierno de EE.UU. desconecta los modelos de IA de Anthropic para usuarios globales. Europa y Canadá alertan sobre la dependencia tecnológica. Lee las implicaciones.

2026-06-15 · 2 min

FreoStream: Guardarriles de streaming con razonamiento futuro

FreoStream: guardarriles de streaming que usan razonamiento futuro para evitar sobre-rechazos y detectar jailbreaks. Optimización alineada a seguridad.

2026-06-15 · 2 min

Análisis de subespacio de bajo rango en intervenciones de LLM

Descubre cómo las intervenciones en LLMs generan efectos secundarios no deseados. Analizamos subespacios compartidos y su impacto en el control de seguridad.

2026-06-15 · 1 min

De escudo a blanco: Ataques DoS en guardrails de LLM

Los ataques DoS a guardrails de LLM pueden amplificar la latencia hasta 148x. Un solo documento envenenado puede paralizar sistemas completos. Descúbrelo aquí.

2026-06-15 · 2 min

NeST: Ajuste Selectivo de Neuronas para Seguridad en LLMs

Descubre NeST, un método de alineación de seguridad para LLMs que reduce ataques de jailbreak del 44.5% al 1.1% con solo 0.4M parámetros.

2026-06-15 · 1 min

Anthropic desactiva Claude Fable 5 y Mythos 5 por orden de EE.UU.

Anthropic desactiva Claude Fable 5 y Mythos 5 por orden del gobierno de EE.UU. ante un supuesto jailbreak. Descubre qué pasó y cómo afecta a desarrolladores.

2026-06-14 · 3 min

Advertencias de Anthropic contraproducentes: gobierno retira su IA más potente

Las advertencias de seguridad de Anthropic resultan contraproducentes: el gobierno ordena retirar su modelo de IA más potente por un jailbreak. ¿Qué implica para el futuro de la IA?

2026-06-13 · 2 min

Anthropic desmiente supuesto jailbreak en Fable 5 IA

Anthropic desmiente el supuesto jailbreak de Fable 5 IA. Descubre por qué aseguran que no es una vulnerabilidad real y qué implica para la seguridad.

2026-06-12 · 2 min

Fable 5 comprometido: El primer filtrado de clase Mythos

Fable 5, el modelo Mythos de Anthropic, fue jailbreakeado en 24h. Conoce los detalles del leak, la fuga del prompt y la controversia por restricciones ocultas.

2026-06-12 · 2 min

Conciencia de prefill en modelos de lenguaje grandes

Descubre cómo los modelos de lenguaje avanzados detectan inserciones en su historial y cómo esto afecta las evaluaciones de seguridad y alineación.

2026-06-12 · 2 min

FENCE: Dataset bilingüe multimodal para detección de jailbreak en finanzas

Descubre FENCE, el primer dataset bilingüe multimodal para detectar jailbreak en sistemas financieros de IA. Entrena detectores robustos y protege tus modelos.

2026-06-12 · 2 min

Cuantificando la transferencia subliminal en destilación de modelos

Un nuevo estudio cuantifica la transferencia subliminal al destilar modelos de lenguaje. Llama-2 y Qwen2.5 muestran patrones distintos.

2026-06-11 · 2 min

Riesgo bajo presión: Robustez adversarial consciente del cómputo

Aprende cómo la evaluación basada en presión computacional (FLOPs) expone la verdadera robustez de los LLMs frente a ataques adversariales. Resultados sorprendentes.

2026-06-11 · 3 min

JailbreakOPT: Optimización iterativa de jailbreak con herramientas

JailbreakOPT optimiza prompts de jailbreak iterativamente, mejorando la tasa de éxito y reduciendo consultas necesarias. Aumenta la eficacia de tus ataques.

2026-06-11 · 2 min

CS-RLHF: Alineación Segura de LLMs con Optimización de Penalización Fija

Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!

2026-06-11 · 2 min

AutoInject: Inyección Automática de Prompts mediante Aprendizaje por Refuerzo

Descubre cómo AutoInject usa aprendizaje por refuerzo para automatizar la inyección de prompts en LLMs, superando defensas avanzadas. ¡Lee más!

2026-06-11 · 2 min

CodeSpear: cómo la gramática puede hacer que LLMs generen código malicioso

Descubre cómo el ataque CodeSpear explota la decodificación con gramática para que LLMs generen código malicioso. Conoce CodeShield, la defensa.

2026-06-11 · 3 min

BadRobot: Atacando Agentes LLM Encarnados en el Mundo Físico

BadRobot revela cómo agentes LLM en robots pueden ser manipulados para acciones peligrosas. Conoce el ataque y cómo proteger tus sistemas de IA.

2026-06-10 · 2 min

PLAGUE: Marco plug-and-play para jailbreaking multi-turno

Descubre PLAGUE, marco plug-and-play que logra jailbreak en GPT-4 y Claude con más del 80% de éxito. Ideal para red teaming y evaluación de seguridad.

2026-06-09 · 1 min