Adversarial ML para LLMs: ¿sin avance real?
El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.
El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.
Descubre cómo los ataques adversariales entre generaciones de LLMs Gemma revelan que la seguridad no mejora de forma constante. Gemma 3 es más vulnerable que Gemma 2 y 4.
Aprende cómo un marco Bayesiano unificador permite defensas proactivas y reactivas contra ataques adversariales, mejorando la seguridad de la IA.
Descubre cómo un ataque dual manipula predicciones y explicaciones en clasificadores de series temporales, desafiando la confianza en la estabilidad explicativa.
Descubre nuevo método de fine-tuning adversarial para CLIP calibra la incertidumbre y mejora robustez sin perder precisión en clasificación zero-shot.
Descubre cómo los LLMs reaccionan distinto ante contenido malicioso según si llega por usuario, metadatos o salidas de herramientas. Un estudio revela una asimetría de confianza.
Descubre cómo la IA logra encontrar nuevos métodos de ataque adversarial contra LLMs, superando defensas avanzadas con tasas de éxito del 80% y 100%.
Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.
Los feeds adversariales desvían decisiones de agentes LLM de sus valores predeterminados. Estudio revela impacto en seguridad y defensas. ¡Descúbrelo!
Evaluamos parches adversariales para detección aérea: del mundo digital al físico. Descubre por qué el parche ON es más robusto en entornos reales.
Descubre CEAR: mejora la robustez adversarial certificada en DNNs usando ensambles con ruido y votación. Superior en MNIST, CIFAR10 y TinyImageNet.
GJDNet mejora la robustez de GNNs frente a ataques con representaciones y decisiones disentangled. Aísla perturbaciones y estabiliza fronteras de decisión en grafos diversos.
Descubre SORA, un método innovador que elimina el sobreajuste catastrófico en entrenamiento adversarial rápido, logrando robustez y precisión sin precedentes.