¿Pueden los VLMs predecir estados futuros? Bootstrapping desde dinámica inversa
Los VLMs predicen estados futuros usando bootstrapping de dinámica inversa, mejorando la edición de imágenes hasta un 13% en evaluaciones humanas.
Los VLMs predicen estados futuros usando bootstrapping de dinámica inversa, mejorando la edición de imágenes hasta un 13% en evaluaciones humanas.