#vla · DeepCodeNews

CrossVLA: Post-entrenamiento e inferencia entre paradigmas para VLA

Descubre CrossVLA, un estudio que optimiza el post-entrenamiento e inferencia en modelos VLA usando DPO, DoRA y técnicas de caché. Resultados en LIBERO.

2026-06-09 · 2 min

C³ache: Caché Cruzado para Acelerar Modelos de Acción Mundial

Descubre C³ache, un método sin entrenamiento que acelera hasta 2.5x los Modelos de Acción Mundial (WAM) mediante caché de inferencia cruzada, manteniendo la precisión.

2026-06-09 · 2 min

State Backdoor: ataque sigiloso a modelos de visión-lenguaje-acción

Nuevo ataque sigiloso (State Backdoor) explota estado inicial robot para comprometer modelos VLA. Más del 90% de éxito sin afectar rendimiento.

2026-06-09 · 2 min

Tu modelo ya lo sabe: filtro de seguridad con atención para VLA

Aprovecha la atención interna de los modelos VLA para filtrar obstáculos en tiempo real. Sin entrenamiento extra.

2026-06-09 · 1 min

NoRD: Modelo VLA eficiente en datos que conduce sin razonamiento

Descubre NoRD, el modelo VLA que conduce sin razonamiento usando menos datos. Resultados competitivos en Waymo y NAVSIM con 3x menos tokens.

2026-06-09 · 2 min

vla.cpp: Runtime de inferencia unificado para modelos VLA

vla.cpp ejecuta modelos VLA en 1.3 GB, igualando rendimiento Python en GPU. Optimiza inferencia en hardware robótico.

2026-06-09 · 3 min

Ego-Pi: Ajuste fino VLA con datos egocéntricos humanos y robots

Descubre cómo Ego-Pi usa datos humanos egocéntricos para entrenar robots, superando la falta de datos robóticos y logrando nuevas habilidades sin datos robot.

2026-06-09 · 3 min

GEAR-VLA: Aprendizaje de representaciones geométricas para manipulación robótica

Descubre GEAR-VLA, el marco VLA que logra un 90% de éxito en agarre universal con objetos no vistos. Representaciones geométricas unificadas para robots.

2026-06-09 · 2 min

FiberTune: Residuos visuales de acción en ajuste fino VLA

FiberTune mejora el ajuste fino de políticas VLA preservando residuos visuales clave, logrando +10.7% en éxito de tareas robóticas sin costo de inferencia.

2026-06-09 · 2 min

Evaluación de modelos VLA en SO-101: Fallos y recuperación

Evaluamos modelos VLA en robots de bajo costo con el benchmark SO-101: fallos, recuperación y robustez. ¡Descubre los resultados!

2026-06-09 · 2 min

ViVa: Modelo generativo de video para aprendizaje por refuerzo en robots

ViVa usa video generativo para predecir el futuro del robot y evaluar el progreso, logrando un 80% de éxito en manipulación robótica.

2026-06-08 · 2 min

Adaptación robótica vía metaaprendizaje en pesos

Descubre cómo WIZARD usa meta-aprendizaje en pesos para adaptar robots a nuevas tareas con solo una instrucción y un video, sin reentrenamiento.

2026-06-08 · 2 min

RhinoVLA: el modelo VLA que acelera la robótica en el borde

Descubre RhinoVLA, el modelo VLA token-eficiente que alcanza 11.69 Hz en tiempo real sobre Huixi R1, con rendimiento comparable a π0.5 y código abierto.

2026-06-08 · 3 min

3 Ventajas Clave de la Segmentación VLAN: Asegura tu Red

Segmentación VLAN: mejora la seguridad, optimiza el rendimiento y simplifica la gestión de tu red. Reduce el riesgo de brechas.

2026-06-07 · 3 min

MPCoT: Razonamiento latente multi-ruta guiado por recompensa para VLA

MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra.

2026-06-06 · 2 min

TempoVLA: Políticas de Visión-Lenguaje-Acción con Velocidad Controlable

TempoVLA controla la velocidad de robots manipuladores: acelera en zonas seguras y desacelera en contacto. Aumenta eficiencia y seguridad.

2026-06-06 · 1 min

Que sea simple: acciones en un solo paso para modelos VLA

Descubre cómo entrenar modelos VLA para generar acciones en un solo paso con técnicas de difusión estándar, mejorando eficiencia en robótica. Resultados sorprendentes en LIBERO.

2026-06-05 · 3 min

Que sea simple: generación de acciones en un paso

Simplifica la generación de acciones robóticas con modelos VLA: un solo paso supera a diez pasos. Resultados en LIBERO y robots reales. ¡Lee más!

2026-06-05 · 2 min

Rompiendo el cuello de botella perceptual en IA con SceneDiver

Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.

2026-06-04 · 1 min

Transiciones de fase del transformador ruidoso en dimensión arbitraria

Nuevo estudio revela transiciones de fase en el modelo de transformador ruidoso para cualquier dimensión. Implicaciones para la teoría de atención en IA.

2026-06-04 · 3 min