#habla

Vocoders multilingües y multilocutor: análisis de unidades discretas

El tamaño del cluster y el condicionamiento del hablante son clave para evitar mezcla de hablantes en vocoders multilingües. Descubre cómo.

2026-06-08 · 1 min

TargetSEC: Conversión de Emoción del Habla con Difusión Latente

TargetSEC: conversión de emociones en voz con difusión latente. Preserva identidad y supera a otros sistemas en precisión.

2026-06-08 · 2 min

Generación unificada de canciones y conversión de voz cantada con acompañamiento

Descubre UniSinger, el primer modelo de IA que unifica generación de canciones y SVC con acompañamiento. Clonación de voz y sinergia vocal-acompañamiento.

2026-06-08 · 2 min

Aprendizaje por refuerzo descompuesto para videojuegos de rol inmersivos

Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.

2026-06-06 · 3 min

PC-Talk: Control Preciso de Animación Facial en Rostros Parlantes

PC-Talk: control preciso de animación facial en videos parlantes. Mejora sincronización labial y emociones con IA. Ideal para creadores.

2026-06-06 · 2 min

Cómo hablar con un humano real en atención al cliente y obtener lo que quieres

Descubre cómo hablar con un humano real en atención al cliente y consigue lo que quieres. Estrategias para sortear menús automáticos y hablar con un agente.

2026-06-04 · 3 min

Piensa Antes de Hablar: De la Evaluación a la Expresión Pública

Descubre cómo el marco TBS separa el razonamiento privado de la expresión pública en simulaciones multiagente, analizando la dinámica del silencio.

2026-06-03 · 1 min

AVTrack: Seguimiento Audiovisual en Escenas Humanas Complejas

Conoce AVTrack, el dataset que desafía los métodos actuales de seguimiento audiovisual en escenas humanas complejas con oclusiones y movimiento.

2026-06-03 · 1 min

EntangleCodec: Tokenizador de Audio Unificado con Entrelazamiento Semántico-Acústico

Descubre EntangleCodec, el tokenizador de audio que unifica semántica y acústica. Mejora la comprensión de audio en un 7.4% y escala desde 0.6B a 8B parámetros, superando modelos mucho más grandes.

2026-06-03 · 3 min

Detección contextual de habla para niños en grabaciones largas

Detección contextual de habla infantil en grabaciones largas: modelos auto-supervisados logran +13.8% F1, superando a sistemas basados en reglas en múltiples idiomas.

2026-06-02 · 2 min

Diferencias acústicas y perceptuales en clones de voz estándar y acentuada

El acento afecta la clonación de voz: clones de habla acentuada son menos similares pero más inteligibles. Estudio revela que preservar el acento es clave.

2026-06-02 · 2 min