No leas todo: Consulta condicionada por curvatura para atención lineal
Mejora la recuperación en contexto y la extrapolación de longitud en atención lineal usando una consulta condicionada por curvatura (CCQ), con bajo costo adicional.
Mejora la recuperación en contexto y la extrapolación de longitud en atención lineal usando una consulta condicionada por curvatura (CCQ), con bajo costo adicional.
MomentKV mejora la eficiencia de inferencia larga cerrando la brecha direccional en el desalojo de cache KV, reduciendo errores y permitiendo mayor compresión.