Query Lens: cómo interpretar características dispersas con efectos indirectos
Descubre Query Lens, un nuevo método que va más allá de Logit Lens para interpretar características de autoencoders dispersos, considerando efectos indirectos y la hipótesis del subespacio.