#ataques adversariales

Adversarial ML para LLMs: ¿sin avance real?

El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.

2026-06-03 · 1 min

Ataques adversariales entre generaciones de LLMs: seguridad no monotónica

Descubre cómo los ataques adversariales entre generaciones de LLMs Gemma revelan que la seguridad no mejora de forma constante. Gemma 3 es más vulnerable que Gemma 2 y 4.

2026-06-02 · 1 min

Un marco Bayesiano unificador para la robustez adversarial

Aprende cómo un marco Bayesiano unificador permite defensas proactivas y reactivas contra ataques adversariales, mejorando la seguridad de la IA.

2026-06-02 · 2 min

Vulnerabilidades en explicaciones para clasificadores de series temporales

Descubre cómo un ataque dual manipula predicciones y explicaciones en clasificadores de series temporales, desafiando la confianza en la estabilidad explicativa.

2026-06-02 · 2 min

Calibrando la incertidumbre en CLIP adversarial zero-shot

Descubre nuevo método de fine-tuning adversarial para CLIP calibra la incertidumbre y mejora robustez sin perder precisión en clasificación zero-shot.

2026-06-02 · 2 min

Misma carga, distinto canal: la asimetría de seguridad en LLMs

Descubre cómo los LLMs reaccionan distinto ante contenido malicioso según si llega por usuario, metadatos o salidas de herramientas. Un estudio revela una asimetría de confianza.

2026-06-02 · 4 min

Autoresearch descubre ataques adversariales avanzados para LLMs

Descubre cómo la IA logra encontrar nuevos métodos de ataque adversarial contra LLMs, superando defensas avanzadas con tasas de éxito del 80% y 100%.

2026-06-02 · 2 min

Espejismo de seguridad: Correlaciones espurias y desaprendizaje en VLM

Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.

2026-06-02 · 2 min

Feeds adversariales dirigen a agentes LLM contra sus valores predeterminados

Los feeds adversariales desvían decisiones de agentes LLM de sus valores predeterminados. Estudio revela impacto en seguridad y defensas. ¡Descúbrelo!

2026-06-02 · 2 min

Parches adversariales físicos para detección de vehículos aéreos

Evaluamos parches adversariales para detección aérea: del mundo digital al físico. Descubre por qué el parche ON es más robusto en entornos reales.

2026-06-02 · 2 min

CEAR: Robustez Adversarial Certificada con Ensambles en DNNs

Descubre CEAR: mejora la robustez adversarial certificada en DNNs usando ensambles con ruido y votación. Superior en MNIST, CIFAR10 y TinyImageNet.

2026-06-02 · 2 min

GJDNet: Redes de grafos robustas con aprendizaje disentangled

GJDNet mejora la robustez de GNNs frente a ataques con representaciones y decisiones disentangled. Aísla perturbaciones y estabiliza fronteras de decisión en grafos diversos.

2026-06-02 · 2 min

SORA: Ataques de Segundo Orden Gratuitos en Entrenamiento Adversarial Rápido

Descubre SORA, un método innovador que elimina el sobreajuste catastrófico en entrenamiento adversarial rápido, logrando robustez y precisión sin precedentes.

2026-06-02 · 2 min