P-Cast en FP8: colapso sink y escala óptima S=2^8 Descubre cómo la escala S=2^8 y la iteración inversa evitan el colapso de precisión en atención FP8, mejorando el MSE entre 3 y 10 veces. 2026-06-08 · 2 min