#audiovisual

Ex-Omni: Generación de animación facial 3D para modelos omni-modales

Ex-Omni genera animación facial 3D sincronizada con voz para modelos omni-modales. Código abierto, baja latencia y alta calidad.

2026-06-12 · 2 min

Imagen a video: la herramienta imprescindible para creadores

Convierte imágenes en videos atractivos sin habilidades de edición. Aumenta tu engagement en redes sociales con esta herramienta imprescindible para creadores.

2026-06-08 · 3 min

Localización de eventos audiovisuales con grafos heterogéneos jerárquicos

Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.

2026-06-08 · 2 min

Ser multimodal o no: recuperación audiovisual adaptativa con detección activa

Descubre cómo la detección activa de modalidad permite recuperar personas en archivos de video con precisión superior al 94%, superando sistemas unimodales y fijos.

2026-06-05 · 2 min

SVHalluc: Evaluación de alucinaciones voz-visión en modelos AV

SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.

2026-06-03 · 1 min

AVTrack: Seguimiento Audiovisual en Escenas Humanas Complejas

Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.

2026-06-03 · 1 min

Más allá de la boca: señales faciales superiores en reconocimiento audiovisual

Las señales del rostro superior mejoran el reconocimiento de frases bajo ruido. Un estudio revela su valor más allá de la boca en sistemas audiovisuales.

2026-06-02 · 2 min