Inferencia adaptativa guiada por entropía para LLMs de contexto largo Descubre EntropyInfer: un método sin entrenamiento que acelera hasta 2.39x la inferencia de LLMs en contextos largos, adaptando dinámicamente la atención por cabeza y segmento. 2026-06-09 · 3 min