Teach-and-Repeat: Extrayendo conocimiento operativo de demostraciones móviles
Descubre cómo Teach-and-Repeat convierte videos de pantalla móvil en instrucciones precisas para agentes GUI, acelerando la automatización en Android.
Descubre cómo Teach-and-Repeat convierte videos de pantalla móvil en instrucciones precisas para agentes GUI, acelerando la automatización en Android.
Descubre PERIA, un agente visual que usa herramientas para mejorar el razonamiento espacial. Supera a modelos grandes en tareas de mapas, probing y reconstrucción.
Descubre LatentLens, un método que revela qué codifican los tokens visuales en modelos de lenguaje. Mejora la interpretabilidad de VLMs.
Descubre AutoMine: extrae escenarios críticos con LLMs y VLMs para conducción autónoma, logrando scores líderes en Argoverse 2.
Descubre cómo AVIS optimiza la inferencia en VLMs adaptando el escalado visual y de razonamiento, mejorando precisión y reduciendo costos.
DiffCAP neutraliza ataques adversariales en modelos de visión-lenguaje. Descubre cómo mejora la seguridad.
Descubre cómo los modelos de lenguaje visual congelados permiten un RL anticipatorio que evita colisiones antes de que ocurran, superando métodos tradicionales.
Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.
BridgeVLM internaliza causalidad en VLMs multi-imagen con tokens de razonamiento, superando prompts (54.4% vs 33.2%).
Aprende a asignar cómputo de prueba en planificadores encarnados con DIRECT: reduce costos y latencia, mantén el rendimiento.
Descubre cómo Reroute optimiza tokens visuales en VLMs, mejora grounding y mantiene rendimiento VQA. Técnica sin entrenamiento que redirige tokens.
¿Qué pistas usan los detectores de deepfake de voz? Descubre cómo analizan ambiente, fonemas y bordes de palabras para detectar audios falsos. Explicabilidad con IA.
TREAD usa VLMs para reetiquetar datos robóticos y mejorar robustez en tareas nuevas. Aumenta la generalización de tu robot.
Auditamos benchmarks médicos de VLM y encontramos solapamiento de imágenes en SLAKE-En (19.8%) y señales de intercambiabilidad en Qwen2.5-VL. ¿Confías en tus modelos?
Descubre principios clave para sistemas VLA jerárquicos eficientes en robótica. Estudio optimiza orquestación de políticas para robots reales.
Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.
Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.
CLASP permite a robots entender comandos en lenguaje natural y aprender habilidades con solo 2-5 demostraciones, logrando un 73-100% de éxito.
Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.
Analiza alucinaciones VLM mediante contrafactuales y efectos causales. Descubre cuántas muestras se requieren para detectar inestabilidad.