#guiado por recompensa

MPCoT: Razonamiento latente multi-ruta guiado por recompensa para VLA

MPCoT mejora las políticas VLA en control de largo plazo con razonamiento latente multi-ruta guiado por recompensa, sin generar tokens extra.

AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.