#vqa · DeepCodeNews

OpenMedQ: Preentrenamiento abierto para modelos médicos de visión-lenguaje

OpenMedQ: modelo de VLM médico preentrenado en 14 datasets abiertos logra SOTA en PathVQA y VQA-MED. Supera modelos 80x mayores. Código abierto.

2026-06-12 · 1 min

IAPO: Optimización de Políticas con Atribución de Entradas para Agentes Multimodales

IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA.

2026-06-11 · 2 min

IAPO: Optimización con atribución de entrada para agentes multimodales

Aumenta un 3% la precisión en VQA con IAPO, algoritmo RL que alinea la atribución de entrada en agentes multimodales pequeños. ¡Descubre cómo!

2026-06-11 · 2 min

MSUE: Experto Multimodal en Comprensión de Fútbol

MSUE combina texto, imagen y video para responder preguntas sobre fútbol con un 95% de precisión. Conoce su arquitectura multi-experto.

2026-06-11 · 1 min

Reroute, no eliminar: enrutamiento visual recuperable en VLMs

Descubre cómo Reroute optimiza tokens visuales en VLMs, mejora grounding y mantiene rendimiento VQA. Técnica sin entrenamiento que redirige tokens.

2026-06-11 · 2 min

SD-GRPO: Descomposición verificable de segmentos en VL larga

SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.

2026-06-10 · 2 min

Personalidades múltiples en modelos de visión-lenguaje: conmutación dinámica

Modelos de visión-lenguaje con múltiples personalidades: ¿cómo afecta al rendimiento? Conoce los hallazgos sobre equilibrio y residuales.

2026-06-10 · 2 min

Inferencia colaborativa de borde a servidor para modelos VLM

Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.

2026-06-09 · 2 min

Agente de IA personal para responder preguntas de tu carrete fotográfico

¿Puede una IA entender tu carrete de fotos? Conoce camroll-agent, un asistente que responde preguntas visuales personales con memoria jerárquica. Dataset de 50 usuarios.

2026-06-06 · 2 min

Agente de IA personal para VQA en galería de fotos

Un agente de IA personal responde preguntas visuales sobre tu galería. El dataset Camroll y agente Camroll-Agent con memoria jerárquica.

2026-06-06 · 2 min

Un marco de visión-lenguaje para razonamiento comparativo en radiología

MedReCo: un framework que permite a la IA razonar comparativamente entre imágenes radiológicas, mejorando diagnósticos y seguimientos. Resultados clínicos superiores.

2026-06-05 · 2 min

Modelo VLM consciente de creencias para razonamiento humanoide

Descubre cómo un modelo VLM consciente de creencias integra memoria y aprendizaje por refuerzo para un razonamiento similar al humano, mejorando tareas de VQA.

2026-06-04 · 3 min

R3G: Marco de Razonamiento-Recuperación-Reordenamiento para Respuestas Visuales

R3G: marco de razonamiento-recuperación-reordenamiento para VQA. Mejora la precisión al integrar un plan de razonamiento y recuperación de imágenes en dos etapas.

2026-06-04 · 2 min

Hyper-ICL: Destilación Hiperbólica para Aprendizaje Multimodal en Contexto

Descubre Hyper-ICL, un método ligero que elimina la necesidad de demostraciones en ICL multimodal, calibrando la atención con destilación hiperbólica para mejorar precisión y estabilidad.

2026-06-04 · 2 min

VISTA: Adaptación con visión y validación física de datos UMI para entrenamiento VLA

Descubre cómo VISTA combina visión y validación física para adaptar datos UMI y entrenar modelos VLA, mejorando el rendimiento en manipulación robótica real.

2026-06-04 · 1 min

Destilación de reglas ASP desde LLMs para VQA neurosimbolico

Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.

2026-06-03 · 1 min

REAL: Resuelve conflictos en VQA con pivote de razonamiento

Descubre cómo REAL resuelve conflictos de conocimiento en preguntas visuales con pivotes de razonamiento, mejorando la precisión en VQA intensiva.

2026-06-03 · 1 min

StreamingVLM: Comprensión en tiempo real para transmisiones de video infinitas

StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!

2026-06-02 · 2 min