¿Qué hace relevantes para la acción a los latentes de modelos de mundo de video?
Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.
Descubre cómo la predicción temporal, no la reconstrucción de píxeles, genera representaciones de video relevantes para la acción en modelos de mundo.
Descubre cómo los modelos de video preentrenados captan la física intuitiva según un análisis capa por capa. Resultados sorprendentes de V-JEPA, VideoMAE y más.