Mitigación de alucinaciones en LVLMs con control de sensibilidad visual por token
Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.
Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.
Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.
CLASP permite a robots entender comandos en lenguaje natural y aprender habilidades con solo 2-5 demostraciones, logrando un 73-100% de éxito.
Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.
Analiza alucinaciones VLM mediante contrafactuales y efectos causales. Descubre cuántas muestras se requieren para detectar inestabilidad.
Descubre cómo los VLMs ignoran la evidencia visual y dependen de sesgos textuales. Un análisis interno revela fallos en la integración multimodal.
Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.
Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.
Descubre DAST, un framework zero-shot que combina VLM y LLM para detectar anomalías entre interfaces O-RAN, superando métodos tradicionales. Alta precisión sin etiquetas.
BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.
Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.
Optimiza LLM/VLM con compresión de bajo rango informada por activaciones y guiada por Pareto. Logra mayor eficiencia sin sacrificar precisión.
Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.
Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?
Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.
Descubre cómo el modelo VLM consciente de creencias combina memoria y RL para un razonamiento similar al humano. Mejora en QA visual con HD-EPIC. ¡Lee más!
Descubre cómo un modelo VLM consciente de creencias integra memoria y aprendizaje por refuerzo para un razonamiento similar al humano, mejorando tareas de VQA.
Los VLM pueden predecir estados futuros con ayuda de la dinámica inversa. Descubre cómo logran resultados líderes en edición de imágenes.
Los VLMs predicen estados futuros usando bootstrapping de dinámica inversa, mejorando la edición de imágenes hasta un 13% en evaluaciones humanas.
Descubre cómo los codificadores visuales con estado mejoran los modelos visión-lenguaje en tareas multi-imagen y superan a modelos en radiología y teledetección