#visión-lenguaje

LASER: SVD consciente de pérdida y asignación de rango para modelos VL

Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.

2026-06-02 · 2 min

Riesgo de vinculación cruzada en modelos clínicos de visión-lenguaje

Los modelos de IA clínica pueden reidentificar pacientes al vincular radiografías con informes. Descubre cómo la privacidad diferencial reduce este riesgo.

2026-06-02 · 2 min

MASER: Enrutamiento Adaptativo de Modalidades para IA Espacial 3D

MASER: un framework que selecciona la mejor modalidad para responder preguntas espaciales 3D con alta precisión. Basado en Open3D-VQA.

2026-06-02 · 2 min

Interacción de modalidades en MLLMs: descomposición parcial

Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.

2026-06-02 · 2 min

De videos humanos a manipulación robótica: aprendizaje VLA escalable

Descubre cómo los videos humanos entrenan robots con modelos VLA escalables. Encuesta sobre aprendizaje robótico con datos humanos.

2026-06-02 · 2 min

Más allá de texto:ComProScanner integra visión-lenguaje para figuras científicas

Descubre cómo ComProScanner extrae datos de materiales de figuras científicas con precisión del 97%. Automatiza tu investigación.

2026-06-02 · 3 min

Destilación guiada por ruido visual para desaprender modelos multimodales

Descubre cómo VGID usa ruido visual y destilación para eliminar conocimiento no deseado en modelos multimodales sin perder rendimiento.

2026-06-02 · 2 min

Razonamiento Continuo para Visión-Lenguaje-Acción

Descubre cómo el razonamiento continuo mejora las políticas VLA en robótica, con un 40% más de éxito en tareas. Un nuevo lenguaje interno compartido y verificable.

2026-06-02 · 1 min

3DCodeBench: Nuevo benchmark para modelado 3D procedural con IA

Descubre 3DCodeBench, el benchmark que evalúa agentes de IA en modelado 3D procedural vía código. Resultados, fallos comunes y mejoras con escalado en tiempo de prueba.

2026-06-02 · 2 min

Límites de la reducción de tokens en entrenamiento visión-lenguaje unificado

¿Cómo acelerar el entrenamiento VLM sin perder sinergia? Descubre la asimetría en atención y los límites de la reducción de tokens. Estrategias clave.

2026-06-02 · 3 min

STaR-KV: Compresión de caché KV en modelos de lenguaje visual para GUI

STaR-KV comprime la caché KV en modelos GUI sin entrenamiento, reduciendo memoria GPU un 40% sin penalizar precisión. Descubre cómo.

2026-06-02 · 2 min

Expertos hiperbólicos y priorizados por evidencia en LVLMs

Descubre AsyMoE: nueva arquitectura para LVLMs que reduce alucinaciones y mejora eficiencia con expertos hiperbólicos y priorización de evidencia.

2026-06-02 · 2 min

MMG2Skill: Agentes aprenden habilidades de guías web

Descubre cómo MMG2Skill convierte guías web en habilidades ejecutables para agentes IA, mejorando su rendimiento hasta un 25% en múltiples dominios.

2026-06-02 · 3 min

Zamba2-VL: Modelos de visión-lenguaje híbridos eficientes

Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.

2026-06-02 · 1 min

PaCo-VLA: Prior de Cumplimiento con Escudo de Pasividad para Manipulación de Contacto

PaCo-VLA introduce un prior de cumplimiento con escudo de pasividad para manipulación robótica de contacto, asegurando cero violaciones incluso bajo cambios adversos.

2026-06-02 · 2 min

Benchmarks confiables y negociados para VLM en percepción urbana

Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.

2026-06-02 · 2 min

Ver no es saber: cuándo los VLMs deberían abstenerse

¿Los VLMs saben cuándo abstenerse? Un estudio revela que fallan en preguntas espaciales con oclusión o ambigüedad, respondiendo con exceso de confianza. Descubre por qué.

2026-06-01 · 2 min

Modelo eficiente de visión-lenguaje para informes patológicos sinópticos

Genera informes patológicos sinópticos con un modelo eficiente que solo requiere media GPU H100. Resultados precisos.

2026-06-01 · 2 min

Calibración de atención cross-modal para reducir alucinaciones en LVLM

CMAC: un método sin entrenamiento que calibra la atención cross-modal para mitigar alucinaciones en LVLMs. Corrige sesgos y mejora la consistencia visual-textual.

2026-06-01 · 3 min

BOKBO: Abstención Calibrada para Políticas de Visión-Lenguaje-Acción

Descubre BOKBO, un método de abstención calibrada que garantiza seguridad en políticas VLA. Reduce violaciones y mejora el éxito de tareas robóticas.

2026-06-01 · 2 min