#defensa

Patcher: Reparación post-hoc de modelos de lenguaje con puertas traseras

Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.

2026-06-03 · 2 min

«Debes darme crédito»: Ataques de inyección en calificación con LLM

Protege tu sistema de calificación: conoce los ataques de inyección de instrucciones en LLM y cómo mitigarlos.

2026-06-03 · 2 min

De diagnóstico interno a auditoría externa: defensa contra backdoors con VLM

Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.

2026-06-03 · 2 min

Entre la espada y la pared: tensión entre ética y seguridad en LLMs

Los dilemas éticos pueden ser un arma contra los LLMs. Descubre el ataque TRIAL y la defensa ERR que los protege.

2026-06-02 · 2 min

Un marco Bayesiano unificador para la robustez adversarial

Aprende cómo un marco Bayesiano unificador permite defensas proactivas y reactivas contra ataques adversariales, mejorando la seguridad de la IA.

2026-06-02 · 2 min

Más allá de la brecha: seguridad nativa en IA redefine defensa empresarial

Descubre cómo la seguridad nativa en IA y la hiper-segmentación están redefiniendo la defensa empresarial, superando el enfoque de asumir la brecha.

2026-06-02 · 2 min

La intersección del cifrado y la IA

Bruce Schneier analiza las limitaciones del cifrado ante amenazas modernas y el rol creciente de la IA en ciberseguridad. Descubre cómo afecta a defensores y atacantes.

2026-06-02 · 1 min

Random Erasing vs. Model Inversion: ¿defensa real o falsa esperanza?

Descubre cómo Random Erasing puede ser una defensa efectiva contra ataques de Model Inversion, manteniendo la utilidad del modelo.

2026-06-02 · 2 min

Safe-FedLLM: Análisis de Seguridad en Modelos de Lenguaje Federados

Descubre Safe-FedLLM: un sistema de defensa que detecta actualizaciones maliciosas de LoRA en FedLLM, protegiendo la seguridad sin afectar la velocidad.

2026-06-02 · 1 min

Fragnesia y amigos: Vulnerabilidades de caché de página que regresan

Descubre cómo las vulnerabilidades Copy-Fail y DirtyDecrypt afectan el kernel y cómo OpenShift las mitiga con defensa en profundidad. Lectura imprescindible.

2026-06-02 · 2 min

Cómo influir en la decisión de una IA sin tocarla

La información que un agente de IA lee antes de decidir puede sesgar sus decisiones. Pruebas revelan riesgos. Aprende defensas como datos balanceados y advertencias.

2026-06-02 · 2 min

Combinación de ruido y filtro bilateral para robustez adversarial en CNN

Un preprocesador simple combina ruido gaussiano y filtro bilateral para lograr robustez adversarial supralineal en CNNs con bajo costo computacional.

2026-06-02 · 3 min

Autoresearch descubre ataques adversariales avanzados para LLMs

Descubre cómo la IA logra encontrar nuevos métodos de ataque adversarial contra LLMs, superando defensas avanzadas con tasas de éxito del 80% y 100%.

2026-06-02 · 2 min

AgentRedBench: Redteaming dinámico y defensas para agentes LLM en SaaS

AgentRedBench: benchmark dinámico que evalúa seguridad de agentes LLM en integraciones SaaS. AgentRedGuard reduce ataques exitosos del 69.9% al 2.4%.

2026-06-02 · 2 min

Perturbaciones adversarias en aprendizaje continuo: defensa a alineación activa

Descubre cómo AdvCL reutiliza perturbaciones adversarias para estabilizar el aprendizaje continuo en LLMs, mejorando robustez y transferencia sin olvido.

2026-06-02 · 2 min

Feeds adversariales dirigen a agentes LLM contra sus valores predeterminados

Los feeds adversariales desvían decisiones de agentes LLM de sus valores predeterminados. Estudio revela impacto en seguridad y defensas. ¡Descúbrelo!

2026-06-02 · 2 min