AVA-VLA: Mejorando modelos Visión-Lenguaje-Acción con Atención Visual Activa
Descubre cómo AVA-VLA mejora los modelos Visión-Lenguaje-Acción con atención visual activa y estado recurrente, logrando rendimiento de vanguardia en robótica.
Descubre cómo AVA-VLA mejora los modelos Visión-Lenguaje-Acción con atención visual activa y estado recurrente, logrando rendimiento de vanguardia en robótica.
SCALE mejora modelos VLA sin entrenamiento extra: modula percepción y acción según incertidumbre en una sola pasada.
Aprende a dirigir modelos VLA con secuencias de lenguaje óptimas. Marco conformalizado mejora rendimiento robot hasta 65% garantizando intervenciones seguras.
vla.cpp ejecuta modelos VLA en 1.3 GB, igualando rendimiento Python en GPU. Optimiza inferencia en hardware robótico.