#tokens visuales

Evolución oculta del contexto visual disfrazado en VLM

Descubre la evolución oculta de los tokens visuales en VLMs. Comparamos inyección en contexto vs por capas. Aprende cuál mejora el rendimiento.

2026-06-19 · 2 min

La evolución oculta del contexto visual dentro de los VLM

Analizamos la evolución oculta de los tokens visuales en los VLM, comparando paradigmas de integración y su efecto en tareas multimodales.

2026-06-19 · 2 min

Fusión tardía de capas: solución a la saturación visual en MLLMs

Un nuevo método, DPVR-LF, enruta tokens visuales solo en la última capa, reduciendo cómputo inútil en modelos multimodales. ¡Rendimiento competitivo con solo

2026-06-16 · 2 min

LatentLens: Revelando tokens visuales interpretables en LLMs

Descubre LatentLens, un método que revela qué codifican los tokens visuales en modelos de lenguaje. Mejora la interpretabilidad de VLMs.

2026-06-12 · 2 min

AVIS: Escalado Adaptativo en Tiempo de Prueba para Modelos de Visión-Lenguaje

Optimiza el equilibrio entre precisión y cómputo en VLMs con AVIS. Aprende cómo el escalado adaptativo mejora la eficiencia.

2026-06-11 · 2 min

MultiToP: Parcheo de tokens visuales contra alucinaciones en video

Aprende cómo MultiToP parchea tokens visuales para reducir alucinaciones en modelos de video. Mejora F1 en 50.6% sin afectar rendimiento.

2026-06-11 · 2 min

TextHOI-3D: Generación 3D de interacción mano-objeto desde texto

Descubre TextHOI-3D, modelo que crea mallas 3D realistas de manos interactuando con objetos a partir de texto, usando múltiples vistas y optimización.

2026-06-11 · 2 min

Reroute, no eliminar: enrutamiento visual recuperable en VLMs

Descubre cómo Reroute optimiza tokens visuales en VLMs, mejora grounding y mantiene rendimiento VQA. Técnica sin entrenamiento que redirige tokens.

2026-06-11 · 2 min