#llava

MultiToP: Parcheo de tokens visuales contra alucinaciones en video

Aprende cómo MultiToP parchea tokens visuales para reducir alucinaciones en modelos de video. Mejora F1 en 50.6% sin afectar rendimiento.

2026-06-11 · 2 min

Supervisión textual potencia representaciones geoespaciales en VLM

Descubre cómo la supervisión textual mejora las representaciones geoespaciales en modelos de IA. Análisis de CLIP, LLaVA y más. ¡Optimiza tu comprensión espacial!

2026-06-08 · 2 min

MLLM-Microscope: Desvelando la Estructura Interna de los MLLMs

Descubre cómo MLLM-Microscope analiza las representaciones internas de los MLLMs, revelando linealidad, dimensión y anisotropía para mejorar el diseño futuro.

2026-06-02 · 1 min