#modelos de lenguaje visual

Mejora de VLMs patológicos mediante razonamiento multiescala

Mejora diagnóstico patológico con VLMs entrenados con razonamiento multiescala. Scale-VQA y ScaleReasoner-R1 superan atajos textuales con rendimiento superior.

2026-06-17 · 1 min

Reforzando el razonamiento de doble ruta en modelos visuales espaciales

Aprende cómo SR-REAL potencia el razonamiento espacial con dos rutas complementarias: lenguaje y detección 3D.

2026-06-17 · 2 min

Zero-Shot Learning Industrial: Nuevo Benchmark, Desafíos y Línea Base

Descubre MMIO, el primer dataset industrial a gran escala para Zero-Shot, y RTVP, un método que logra 42.2% AP en detección de defectos sin entrenamiento

2026-06-17 · 2 min

Dataset de preferencias humanas dinámicas para modelos de lenguaje visual

Descubre cómo el nuevo dataset de preferencias humanas dinámicas evalúa la capacidad de los VLMs para adaptarse en tiempo real. Ideal para investigadores en IA.

2026-06-16 · 2 min

MemoVAD: Detección eficiente de anomalías en video con memoria semántica

Descubre MemoVAD, un innovador sistema de detección de anomalías en video que combina IA en el borde y la nube para reducir costos y mejorar la precisión.

2026-06-16 · 1 min

El último píxel visible: sondeando percepción fina en VLMs

Nuevo benchmark FineSightBench revela que la percepción fina en VLMs satura a 12px y el razonamiento visual es limitado.

2026-06-16 · 2 min

El último píxel visible: probando la percepción fina en VLMs

¿Qué tan pequeño puede percibir un VLM? FineSightBench revela que la percepción se satura a 12px, pero el razonamiento sigue limitado.

2026-06-16 · 2 min

RoboPIN: Razonamiento Incorporado con Cadena de Pensamiento Anclada

Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.

2026-06-16 · 3 min

Evaluación de calidad de imágenes IA: desacoplando semántica y distorsiones

Descubre cómo MST-CLIPIQA desacopla semántica y distorsiones para evaluar imágenes generadas por IA con precisión sin precedentes. Nuevo estado del arte.

2026-06-16 · 2 min

BinTrack: seguimiento binario para navegación espacial con modelos abiertos

Descubre BinTrack, un agente de localización espacial de código abierto que mejora hasta un 22.8% la precisión en navegación de robots. ¡Lee más!

2026-06-16 · 1 min

Vision LLMs como parseadores de PDF: gráficos y diagramas para RAG

Aprende a usar Vision LLMs para extraer información de gráficos y diagramas en PDFs, potenciando tu RAG documental.

2026-06-14 · 2 min

Purificación Adversarial Acumulativa para Modelos de Lenguaje Visual

Descubre DiffCAP: purificación por difusión que neutraliza ataques adversarios en VLMs. Mejora la seguridad sin sacrificar eficiencia. ¡Acelera tu despliegue!

2026-06-11 · 2 min

MARIC: Razonamiento Multi-Agente para Clasificación de Imágenes

Descubre cómo MARIC revoluciona la clasificación de imágenes usando un enfoque multiagente colaborativo que supera a los métodos tradicionales.

2026-06-11 · 2 min

Búsqueda semántica en 100M+ imágenes de galaxias con IA

Descubre cómo AION-Search usa IA para buscar en 100 millones de imágenes de galaxias y encontrar nuevos fenómenos raros como corrientes estelares.

2026-06-11 · 2 min

Ver antes de colisionar: RL segura anticipatoria con modelos de lenguaje visual

Descubre cómo los modelos de lenguaje visual congelados permiten un RL anticipatorio que evita colisiones antes de que ocurran, superando métodos tradicionales.

2026-06-11 · 3 min

MedVision: Benchmark para análisis cuantitativo de imágenes médicas

Descubre MedVision: benchmark de IA para análisis cuantitativo de imágenes médicas. Evalúa detección, tumores y ángulos.

2026-06-09 · 1 min

Inferencia colaborativa de borde a servidor para modelos VLM

Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.

2026-06-09 · 2 min