Bag of Dims: Interpretabilidad mecanicista sin entrenamiento
Descubre cómo patrones de signo en dimensiones de transformers revelan semántica sin entrenamiento. Nuevo enfoque: 'Bag of Dims'.
Descubre cómo patrones de signo en dimensiones de transformers revelan semántica sin entrenamiento. Nuevo enfoque: 'Bag of Dims'.