#siglip

Revisitando el Model Stitching en la Era de los Modelos Base

El model stitching ya no es solo un diagnóstico: descubre cómo unir modelos de visión heterogéneos para mejorar precisión y eficiencia en LLMs multimodales.

2026-06-04 · 3 min

KODA: Comparación y alineación de representaciones en modelos visión-lenguaje

KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.

2026-06-04 · 2 min

R3-CoVR: marco zero-shot de razonamiento para videos compuestos

Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.

2026-06-02 · 2 min