MPCoT: Razonamiento latente multi-ruta guiado por recompensa para VLA MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra. 2026-06-06 · 2 min