Revisitando el Model Stitching en la Era de los Modelos Base
El model stitching ya no es solo un diagnóstico: descubre cómo unir modelos de visión heterogéneos para mejorar precisión y eficiencia en LLMs multimodales.
El model stitching ya no es solo un diagnóstico: descubre cómo unir modelos de visión heterogéneos para mejorar precisión y eficiencia en LLMs multimodales.
KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.
Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.