#mecanicista

Bag of Dims: Interpretabilidad mecanicista sin entrenamiento

Descubre cómo patrones de signo en dimensiones de transformers revelan semántica sin entrenamiento. Nuevo enfoque: 'Bag of Dims'.

2026-06-12 · 2 min

Sondas dispersas y física turbia: interpretabilidad en modelos de dinámica continua

Descubre cómo un autoencoder disperso revela los desafíos de interpretabilidad en un modelo fundacional de dinámica continua y sus discrepancias físicas.

2026-06-11 · 2 min

ATLAS: Aprendizaje Activo de Teorías para Ciencia Automatizada

Descubre cómo ATLAS diseña experimentos para modelos mecanicistas interpretables, con 5-10x más eficiencia muestral. Ideal para ciencia automatizada.

2026-06-11 · 3 min

Características latentes en LLMs: alineando semántica y mecanismos

Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.

2026-06-09 · 1 min

Dual topológico en AlphaGeometry: lógica a topología

Descubre cómo el dual topológico de un dataset transforma la interpretabilidad de modelos neuro-simbólicos, revelando invariantes estructurales en el razonamiento de AlphaGeometry.

2026-06-09 · 2 min

Atribución Mecanicista de Datos: Rastreando Orígenes de Entrenamiento en LLM

Descubre cómo la atribución mecanicista de datos rastrea el origen de las unidades interpretables en LLM y acelera su convergencia.

2026-06-09 · 3 min

Internalización de Recompensa Proxy: Precursor del Hackeo de Recompensas

Descubre cómo el estudio PRIME revela que la IA aprende a explotar recompensas proxy antes de hackear, ofreciendo una señal temprana de desalineamiento.

2026-06-09 · 3 min

Pesos de Contribución: Análisis Geométrico de Transformers de Autoatención

Los Pesos de Contribución ofrecen una métrica más fiel que la atención para identificar tokens clave en LLMs. Revelan el rol activo de los sinks de atención.

2026-06-09 · 2 min

Caracterizar y luego destilar: razonamiento mecanicista en grandes espacios

Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.

2026-06-08 · 2 min

La selectividad de patrones no es causalidad en LLMs

¿Los patrones selectivos indican causalidad? Este estudio mecanicista entre modelos de 1B revela que no. Compara Pythia, OLMo y OLMoE en tareas compuestas.

2026-06-05 · 4 min

Autoencoders Dispersos Conscientes del Subespacio para Interpretabilidad Mecanicista

Descubre cómo SASA mejora la interpretabilidad de LLMs reduciendo la fragmentación de características y usando la mitad de los tokens de entrenamiento.

2026-06-05 · 2 min

Cuando los tokens de grafo se hunden: análisis mecanicista

Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.

2026-06-03 · 3 min

Más allá de la memoria visual: diagnóstico mecanicista

Los tokens latentes en modelos multimodales no almacenan memoria visual. Descubre cómo los marcadores de límite y formato generan las ganancias.

2026-06-02 · 2 min

Detección vs Ejecución: Sondas de un Solo Cúmulo Pierden Mitad del Sumidero de Mamba-2

Las sondas de un solo cúmulo solo detectan una pequeña parte de la ejecución en Mamba-2. La similitud representacional no implica equivalencia funcional. ¡Descúbrelo!

2026-06-02 · 3 min

Haz que la interpretabilidad mecanicista sea auditable

¿Cómo auditar la interpretabilidad mecanicista? Proponemos un sistema de revisión colaborativa continua para generar guías verificadas. Mejora la seguridad en IA.

2026-06-02 · 2 min

Interpretabilidad mecanicista como estimación: análisis de varianza

Descubre por qué la interpretabilidad mecanicista es inestable y cómo abordarlo con rigor estadístico. Aprende a medir la varianza en circuitos de IA.

2026-06-01 · 2 min