#cuantificación no uniforme

OASIS: Aceleración de inferencia LLM con cuantificación dual basada en LUT

Descubre OASIS, la arquitectura LUT que acelera la inferencia de LLM un 3x con cuantificación dual, reduciendo la pérdida de precisión a solo 1.98%.