GRPO-TTA: Ajuste Visual en Tiempo de Prueba para Modelos de Visión-Lenguaje mediante Aprendizaje por Refuerzo Impulsado por GRPO
<meta name=description content=GRPO-TTA ajusta modelos visión-lenguaje en tiempo de prueba usando aprendizaje por refuerzo GRPO, mejorando su rendimiento visual sin reentrenamiento.>