#vepo

Entropía no es suficiente: aprendizaje por refuerzo visual con tokens anclados

La entropía falla en RL visual: VEPO selecciona tokens visual-informativos y supera en hasta 3.15 puntos. Descubre cómo.