OASIS: Aceleración de inferencia LLM con cuantificación dual basada en LUT
Descubre OASIS, la arquitectura LUT que acelera la inferencia de LLM un 3x con cuantificación dual, reduciendo la pérdida de precisión a solo 1.98%.
Descubre OASIS, la arquitectura LUT que acelera la inferencia de LLM un 3x con cuantificación dual, reduciendo la pérdida de precisión a solo 1.98%.