#lbr · DeepCodeNews

Dinámicas de rechazo paso a paso en modelos autoregresivos y de difusión

Estudio revela que modelos de difusión son más robustos ante jailbreaks que los autoregresivos. Conoce el nuevo detector SRI.

2026-06-08 · 2 min

Ataques en espacio latente para evadir rechazos en modelos de lenguaje

Descubre cómo los ataques de espacio latente eluden el rechazo en modelos de lenguaje, superando barreras de seguridad con proyecciones optimizadas.

2026-06-08 · 1 min

Compresión aprendida de alta fidelidad: modelado de residuos

Descubre cómo el modelado de residuos mejora la compresión de datos científicos un 30-60%. LBRC y NGLR para alta fidelidad.

2026-06-06 · 2 min

GuardNet: Redes superficiales contra inyección de prompts y jailbreak

GuardNet combina redes neuronales superficiales para detectar ataques a LLMs. Logra AUROC 0.747 en benchmark ciego con solo 50ms de latencia. Ideal para producción.

2026-06-06 · 2 min

Paradoja de seguridad: mayor conciencia, mayor vulnerabilidad en LLMs

Descubre cómo los LLM con mejor conciencia de seguridad son más vulnerables al ataque Posterior. La paradoja de la seguridad en IA.

2026-06-06 · 2 min

Cómo obtener actualizaciones de ubicación en segundo plano cada n minutos en iOS

Aprende a forzar actualizaciones de ubicación en segundo plano cada n minutos en tu app iOS sin jailbreak. Guía paso a paso con código.

2026-06-05 · 2 min

SlotGCG: Explotando vulnerabilidades posicionales en LLMs

SlotGCG explota vulnerabilidades posicionales en prompts para jailbreak. Logra un 14% más de éxito que GCG, con solo 200ms de preprocesamiento. Descubre cómo.

2026-06-05 · 1 min

SlotGCG: explotando vulnerabilidad posicional en LLMs para ataques

SlotGCG mejora ataques jailbreak en LLMs explotando vulnerabilidades posicionales. Logra un 14% más de éxito y 42% más robustez frente a defensas.

2026-06-05 · 3 min

Vectores de dirección: una superficie de ataque adversarial

Descubre cómo un ataque de envenenamiento sigiloso en vectores de dirección puede burlar la seguridad de LLMs. Aprende sobre la defensa ortogonalización.

2026-06-05 · 2 min

MaskForge: Ataques Adaptativos con Estructura para Jailbreak de LLMs de Difusión

Aprende cómo MaskForge, un ataque adaptativo de caja negra, alcanza un 79.3% de éxito en jailbreak de dLLMs mediante patrones estructurales dinámicos.

2026-06-04 · 2 min

MENTOR: Marco de autoevolución para mitigar riesgos implícitos en LLMs

Descubre MENTOR, un framework de metacognición que reduce los ataques de jailbreak en LLMs hasta un 57.8%. Mejora la seguridad de tus modelos de IA.

2026-06-04 · 2 min

MENTOR: Marco de autoevolución para mitigar riesgos implícitos en LLMs

Descubre cómo MENTOR reduce la vulnerabilidad de los LLMs ante riesgos implícitos en educación, finanzas y gestión.

2026-06-04 · 1 min

MultiTurnPSB: Seguridad en IA médica ante ataques multi-turno

Los chatbots médicos fallan hasta en un 80% ante ataques multi-turno. Descubre cómo MultiTurnPSB revela vulnerabilidades y las defensas con clasificadores.

2026-06-03 · 2 min

Inicializaciones de ataques jailbreak como extractores de cumplimiento

Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.

2026-06-03 · 2 min

NeuroArmor: defensa selectiva contra jailbreaks en LLMs

Descubre NeuroArmor: reduce ataques jailbreak a 1.57% con bajos falsos positivos en LLMs. Protege tu modelo sin sacrificar utilidad.

2026-06-03 · 2 min

Ataques de caja negra, adaptativos y eficientes para romper LLMs

Nuevo ataque IHO vulnera LLMs incluso con defensas avanzadas. Evalúa robustez adversarial de forma eficiente y transferible. ¡Descúbrelo!

2026-06-03 · 1 min

Gate AI: Metodología y resultados de evaluación de seguridad en LLM

Descubre la metodología rigurosa de Gate AI para evaluar detectores de inyección y jailbreaks en LLM con umbral único y 16 benchmarks. Resultados sin sesgos.

2026-06-03 · 1 min