Vocoders multilingües y multilocutor: análisis de unidades discretas
El tamaño del cluster y el condicionamiento del hablante son clave para evitar mezcla de hablantes en vocoders multilingües. Descubre cómo.
El tamaño del cluster y el condicionamiento del hablante son clave para evitar mezcla de hablantes en vocoders multilingües. Descubre cómo.
TargetSEC: conversión de emociones en voz con difusión latente. Preserva identidad y supera a otros sistemas en precisión.
Descubre UniSinger, el primer modelo de IA que unifica generación de canciones y SVC con acompañamiento. Clonación de voz y sinergia vocal-acompañamiento.
Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.
PC-Talk: control preciso de animación facial en videos parlantes. Mejora sincronización labial y emociones con IA. Ideal para creadores.
Descubre cómo hablar con un humano real en atención al cliente y consigue lo que quieres. Estrategias para sortear menús automáticos y hablar con un agente.
Descubre cómo el marco TBS separa el razonamiento privado de la expresión pública en simulaciones multiagente, analizando la dinámica del silencio.
Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.
Descubre EntangleCodec, el tokenizador de audio que unifica semántica y acústica. Mejora la comprensión de audio en un 7.4% y escala desde 0.6B a 8B parámetros, superando modelos mucho más grandes.
Detección contextual de habla infantil en grabaciones largas: modelos auto-supervisados logran +13.8% F1, superando a sistemas basados en reglas en múltiples idiomas.
El acento afecta la clonación de voz: clones de habla acentuada son menos similares pero más inteligibles. Estudio revela que preservar el acento es clave.
Echo: un sistema de audio con un encoder ViT que unifica diarización, ASR y separación de fuentes en un espacio latente. Eficiente y preciso.
Nueva política DOA permite traducción simultánea sin entrenamiento. Baja latencia, calidad cercana a offline con SpeechLLMs.
OpenSTBench: marco unificado para evaluar traducción de voz - calidad de habla, latencia y más. Ideal para comparar sistemas S2TT y S2ST.
MindVoice transforma señales cerebrales en habla inteligible usando IA. Un avance en interfaces cerebro-computadora no invasivas.