Ex-Omni: Generación de animación facial 3D para modelos omni-modales
Ex-Omni genera animación facial 3D sincronizada con voz para modelos omni-modales. Código abierto, baja latencia y alta calidad.
Ex-Omni genera animación facial 3D sincronizada con voz para modelos omni-modales. Código abierto, baja latencia y alta calidad.
Convierte imágenes en videos atractivos sin habilidades de edición. Aumenta tu engagement en redes sociales con esta herramienta imprescindible para creadores.
Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.
Descubre cómo la detección activa de modalidad permite recuperar personas en archivos de video con precisión superior al 94%, superando sistemas unimodales y fijos.
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.
Las señales del rostro superior mejoran el reconocimiento de frases bajo ruido. Un estudio revela su valor más allá de la boca en sistemas audiovisuales.