¿Qué hace relevantes para la acción a los latentes de modelos de mundo de video?
Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.
Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.