#fp8 · DeepCodeNews

Catálogo de 84 formatos numéricos con vectores bit-exactos

Descubre el primer catálogo abierto de 84 formatos numéricos con vectores de conformidad bit-exactos para FP8, BF16, MXFP4 y más. Ideal para portar modelos

2026-06-16 · 3 min

Cuantización de Ideogram 4.0: INT8 y GGUF en GPUs de consumo

Descubre cómo cuantizar Ideogram 4.0 a INT8 y GGUF para GPUs Ampere, manteniendo la calidad FP8 y mejorando el rendimiento.

2026-06-11 · 3 min

Colapso de alineación bajo cuantización de caché KV: diagnóstico y mitigación

Descubre cómo la cuantización de caché KV puede destruir la alineación de seguridad en LLMs y cómo PCR recupera hasta un 97% del daño en solo 35 minutos.

2026-06-10 · 3 min

SpenseGPT: Poda práctica de una sola pasada con GEMMs dispersos y densos

Descubre SpenseGPT: poda one-shot que acelera la inferencia de LLMs hasta 1.2x en GPUs B200 con FP8, manteniendo la precisión. Formato híbrido 2:4 y denso.

2026-06-10 · 2 min

SpenseGPT: poda de una sola pasada para inferencia de LLM

Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.

2026-06-10 · 2 min

SLOs de nivel cloud en inferencia local de MoE con CPU-GPU

Logra SLOs de nivel cloud en inferencia local de MoE con diseño híbrido CPU-GPU. Prefill acelerado, decodificación eficiente y soporte FP8 nativo en CPU. Ideal para IA local de alta calidad.

2026-06-10 · 3 min

FP8 es todo lo que necesitas (Parte 1): Desmitificando el FP64 en HPC

Descubre cómo FP8 con el método Ozaki II supera al FP64 nativo en HPC, logrando hasta 500 TFLOPS en GPUs B300. ¡El mito del hardware FP64 se desvanece!

2026-06-08 · 2 min

P-Cast en FP8: colapso sink y escala óptima S=2^8

Descubre cómo la escala S=2^8 y la iteración inversa evitan el colapso de precisión en atención FP8, mejorando el MSE entre 3 y 10 veces.

2026-06-08 · 2 min