Catálogo de 84 formatos numéricos con vectores bit-exactos
Descubre el primer catálogo abierto de 84 formatos numéricos con vectores de conformidad bit-exactos para FP8, BF16, MXFP4 y más. Ideal para portar modelos
Descubre el primer catálogo abierto de 84 formatos numéricos con vectores de conformidad bit-exactos para FP8, BF16, MXFP4 y más. Ideal para portar modelos
Descubre cómo cuantizar Ideogram 4.0 a INT8 y GGUF para GPUs Ampere, manteniendo la calidad FP8 y mejorando el rendimiento.
Descubre cómo la cuantización de caché KV puede destruir la alineación de seguridad en LLMs y cómo PCR recupera hasta un 97% del daño en solo 35 minutos.
Descubre SpenseGPT: poda one-shot que acelera la inferencia de LLMs hasta 1.2x en GPUs B200 con FP8, manteniendo la precisión. Formato híbrido 2:4 y denso.
Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.
Logra SLOs de nivel cloud en inferencia local de MoE con diseño híbrido CPU-GPU. Prefill acelerado, decodificación eficiente y soporte FP8 nativo en CPU. Ideal para IA local de alta calidad.
Descubre cómo FP8 con el método Ozaki II supera al FP64 nativo en HPC, logrando hasta 500 TFLOPS en GPUs B300. ¡El mito del hardware FP64 se desvanece!
Descubre cómo la escala S=2^8 y la iteración inversa evitan el colapso de precisión en atención FP8, mejorando el MSE entre 3 y 10 veces.