Pesos de Contribución: Análisis Geométrico de Transformers de Autoatención
Los Pesos de Contribución ofrecen una métrica más fiel que la atención para identificar tokens clave en LLMs. Revelan el rol activo de los sinks de atención.
Los Pesos de Contribución ofrecen una métrica más fiel que la atención para identificar tokens clave en LLMs. Revelan el rol activo de los sinks de atención.
Descubre cómo ATWU mejora el desaprendizaje en LLMs aprendiendo importancia de tokens sin supervisión, logrando equilibrio óptimo entre olvido y retención.
Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.