DLLM-JEPA: Arquitectura JEPA para Modelos de Lenguaje con Difusión Enmascarada
DLLM-JEPA: nueva arquitectura que combina JEPA y difusión enmascarada para reducir FLOPs un 33% y ganar hasta 18.7% en precisión.
DLLM-JEPA: nueva arquitectura que combina JEPA y difusión enmascarada para reducir FLOPs un 33% y ganar hasta 18.7% en precisión.