CrossVLA: Post-entrenamiento e inferencia entre paradigmas para VLA
Descubre CrossVLA, un estudio que optimiza el post-entrenamiento e inferencia en modelos VLA usando DPO, DoRA y técnicas de caché. Resultados en LIBERO.
Descubre CrossVLA, un estudio que optimiza el post-entrenamiento e inferencia en modelos VLA usando DPO, DoRA y técnicas de caché. Resultados en LIBERO.
Descubre C³ache, un método sin entrenamiento que acelera hasta 2.5x los Modelos de Acción Mundial (WAM) mediante caché de inferencia cruzada, manteniendo la precisión.
Nuevo ataque sigiloso (State Backdoor) explota estado inicial robot para comprometer modelos VLA. Más del 90% de éxito sin afectar rendimiento.
Aprovecha la atención interna de los modelos VLA para filtrar obstáculos en tiempo real. Sin entrenamiento extra.
Descubre NoRD, el modelo VLA que conduce sin razonamiento usando menos datos. Resultados competitivos en Waymo y NAVSIM con 3x menos tokens.
vla.cpp ejecuta modelos VLA en 1.3 GB, igualando rendimiento Python en GPU. Optimiza inferencia en hardware robótico.
Descubre cómo Ego-Pi usa datos humanos egocéntricos para entrenar robots, superando la falta de datos robóticos y logrando nuevas habilidades sin datos robot.
Descubre GEAR-VLA, el marco VLA que logra un 90% de éxito en agarre universal con objetos no vistos. Representaciones geométricas unificadas para robots.
FiberTune mejora el ajuste fino de políticas VLA preservando residuos visuales clave, logrando +10.7% en éxito de tareas robóticas sin costo de inferencia.
Evaluamos modelos VLA en robots de bajo costo con el benchmark SO-101: fallos, recuperación y robustez. ¡Descubre los resultados!
ViVa usa video generativo para predecir el futuro del robot y evaluar el progreso, logrando un 80% de éxito en manipulación robótica.
Descubre cómo WIZARD usa meta-aprendizaje en pesos para adaptar robots a nuevas tareas con solo una instrucción y un video, sin reentrenamiento.
Descubre RhinoVLA, el modelo VLA token-eficiente que alcanza 11.69 Hz en tiempo real sobre Huixi R1, con rendimiento comparable a π0.5 y código abierto.
Segmentación VLAN: mejora la seguridad, optimiza el rendimiento y simplifica la gestión de tu red. Reduce el riesgo de brechas.
MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra.
TempoVLA controla la velocidad de robots manipuladores: acelera en zonas seguras y desacelera en contacto. Aumenta eficiencia y seguridad.
Descubre cómo entrenar modelos VLA para generar acciones en un solo paso con técnicas de difusión estándar, mejorando eficiencia en robótica. Resultados sorprendentes en LIBERO.
Simplifica la generación de acciones robóticas con modelos VLA: un solo paso supera a diez pasos. Resultados en LIBERO y robots reales. ¡Lee más!
Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.
Nuevo estudio revela transiciones de fase en el modelo de transformador ruidoso para cualquier dimensión. Implicaciones para la teoría de atención en IA.