Ajuste del regularizador implícito en modelos de difusión enmascarada Descubre cómo optimizar la distribución de probabilidad de máscara en modelos de difusión enmascarada mejora la generalización y el rendimiento en modelos de hasta 8B parámetros. 2026-06-04 · 2 min