MotionEnhancer: difusión video mejora modelos visión-lenguaje en movimiento
Descubre cómo MotionEnhancer usa difusión de video para mejorar la comprensión del movimiento en VLMs, sin parámetros adicionales.
Descubre cómo MotionEnhancer usa difusión de video para mejorar la comprensión del movimiento en VLMs, sin parámetros adicionales.
Descubre cómo MaskAQ utiliza alineación de atención enmascarada para cuantizar Vision Transformers sin datos reales, mejorando la seguridad y el rendimiento.
AlignAtt4LLM logra traducción simultánea inglés-alemán/italiano con baja latencia aplicando AlignAtt en LLMs solo decodificador. Resultados superiores.