Ahora me ves: Detectando esteganografía evasiva en LLMs
Los LLMs pueden ocultar secretos mediante esteganografía. La detección con sondas lineales se evade, pero se restaura con recontextualización.
Los LLMs pueden ocultar secretos mediante esteganografía. La detección con sondas lineales se evade, pero se restaura con recontextualización.
Las preguntas adaptativas y sondas del modelo del mundo permiten entrenar agentes de IA que explican su comportamiento y se adaptan a cambios.
Aprende a usar NVIDIA garak para construir un flujo de red-teaming defensivo en LLM con sondas y detectores personalizados. Incluye código completo.
Descubre cómo PRIG localiza la ambigüedad oculta en prompts de LLMs usando atribución por sonda, superando a GPT-5.4 en identificación de ambigüedad.
PRIG localiza ambigüedad en prompts de LLMs con atribución por sonda. Supera a GPT-5.4. ¡Mejora tus prompts ahora!
Descubre cómo la latencia de autocompromiso revela hacking implícito en modelos de lenguaje sin recompensa externa. Un nuevo enfoque para seguridad en IA.
Descubre cómo la latencia de autocompromiso detecta hackeo implícito sin modelos de recompensa. Una sonda para identificar atajos en el razonamiento de IA.
Echo-POSED: framework auto-supervisado para guía en ecocardiografía en tiempo real. Recomienda ajustes de sonda desde imágenes 2D sin etiquetas. Error angular medio de 8.2°.
Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.
Descubre cómo X-RAY mapea la capacidad de razonamiento de los LLMs usando sondas formales y calibradas, revelando asimetrías y fallos interpretables.
Una sonda lineal en capas medias de LLMs cuantizados detecta alucinaciones con hasta un 100% de precisión, superando a métodos de muestreo.
¿Las sondas lineales detectan razonamiento o formato? Un estudio revela que la precisión en LLMs se explica por confusores de formato, no por modos de razonamie
Las sondas de razonamiento en circuitos booleanos con bucle ofrecen garantías estadísticas óptimas sin depender del tamaño del grafo. ¡Descubre más!
PROBE revoluciona el diseño de fármacos con IA al optimizar afinidad y farmacología mediante sondas moleculares controladas.
Investigación con Qwen3.5-4B: una intervención relacional en primera persona logra recuperar el comportamiento de un modelo colapsado, mientras que solo estructura o solo registro no bastan.
Descubre cómo ProbeScale optimiza SLMs mediante análisis de sondas, seleccionando subredes que reducen hasta 10 veces los parámetros sin perder rendimiento.
Las sondas de un solo cúmulo solo detectan una pequeña parte de la ejecución en Mamba-2. La similitud representacional no implica equivalencia funcional. ¡Descúbrelo!
SPM-Bench: Benchmark automatizado que evalúa LLMs en microscopía de sonda. Descubre su pipeline AGS y la métrica SIP-F1 que revela la personalidad de la IA.
Explora la geometría informacional en softmax para entender la codificación semántica en IA. Dirección dual: controla conceptos con precisión.
Descubre cómo los LLMs multilingües comparten dudas entre idiomas: una sonda lineal logra estimación de confianza zero-shot sin reentrenamiento.