Bag of Dims: Interpretabilidad mecanicista sin entrenamiento
Descubre cómo patrones de signo en dimensiones de transformers revelan semántica sin entrenamiento. Nuevo enfoque: 'Bag of Dims'.
Descubre cómo patrones de signo en dimensiones de transformers revelan semántica sin entrenamiento. Nuevo enfoque: 'Bag of Dims'.
Descubre cómo un autoencoder disperso revela los desafíos de interpretabilidad en un modelo fundacional de dinámica continua y sus discrepancias físicas.
Descubre cómo ATLAS diseña experimentos para modelos mecanicistas interpretables, con 5-10x más eficiencia muestral. Ideal para ciencia automatizada.
Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.
Descubre cómo el dual topológico de un dataset transforma la interpretabilidad de modelos neuro-simbólicos, revelando invariantes estructurales en el razonamiento de AlphaGeometry.
Descubre cómo la atribución mecanicista de datos rastrea el origen de las unidades interpretables en LLM y acelera su convergencia.
Descubre cómo el estudio PRIME revela que la IA aprende a explotar recompensas proxy antes de hackear, ofreciendo una señal temprana de desalineamiento.
Los Pesos de Contribución ofrecen una métrica más fiel que la atención para identificar tokens clave en LLMs. Revelan el rol activo de los sinks de atención.
Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.
¿Los patrones selectivos indican causalidad? Este estudio mecanicista entre modelos de 1B revela que no. Compara Pythia, OLMo y OLMoE en tareas compuestas.
Descubre cómo SASA mejora la interpretabilidad de LLMs reduciendo la fragmentación de características y usando la mitad de los tokens de entrenamiento.
Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.
Los tokens latentes en modelos multimodales no almacenan memoria visual. Descubre cómo los marcadores de límite y formato generan las ganancias.
Las sondas de un solo cúmulo solo detectan una pequeña parte de la ejecución en Mamba-2. La similitud representacional no implica equivalencia funcional. ¡Descúbrelo!
¿Cómo auditar la interpretabilidad mecanicista? Proponemos un sistema de revisión colaborativa continua para generar guías verificadas. Mejora la seguridad en IA.
Descubre por qué la interpretabilidad mecanicista es inestable y cómo abordarlo con rigor estadístico. Aprende a medir la varianza en circuitos de IA.