MPCoT: Razonamiento latente multi-ruta guiado por recompensa para VLA
MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra.
MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra.