#inferencia de contexto largo

Aprendizaje por refuerzo optimiza atención deslizante en razonamiento matemático

Descubre cómo SWARR usa RL para hacer la atención de ventana deslizante competitiva en razonamiento matemático, recuperando precisión con eficiencia lineal.

2026-06-11 · 2 min

MAGE: El bloque All-[MASK] sabe dónde mirar en difusión por bloques LLM

Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.

2026-06-08 · 2 min

MomentKV: Cerrando la brecha direccional en desalojo de cache KV

MomentKV mejora la eficiencia de inferencia larga cerrando la brecha direccional en el desalojo de cache KV, reduciendo errores y permitiendo mayor compresión.

2026-06-02 · 1 min