TWLA: Cuantización con pesos ternarios y activaciones de 4 bits
TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.
TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.
Rotate2Think mejora el razonamiento de modelos de lenguaje con rotación ortogonal. Aumenta precisión en matemáticas, ciencia y código sin entrenamiento.