Fusión tardía de capas: solución a la saturación visual en MLLMs
Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo
Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo