#habla

Aprendizaje Federado Personalizado para Reconocimiento de Voz Disártrica

Mejora el reconocimiento de voz disártrica con aprendizaje federado personalizado. Descubre estrategias que reducen el WER hasta un 4.73% relativo. ¡Protege la privacidad!

2026-06-12 · 2 min

Esta es tu BIOS hablando. Por favor, arréglame. Tu PC está roto.

Descubre cómo una BIOS que hablaba chino reveló un error de disquetera por una batería CMOS agotada. Una historia de soporte técnico que te sorprenderá.

2026-06-12 · 2 min

Cómo hablar con una persona real en el servicio al cliente de Target

Descubre cómo hablar con un agente humano en Target. Llama al número correcto y evita el menú automático. Resuelve tus problemas rápido.

2026-06-11 · 1 min

MA-DLE: Estimación de depresión por habla con memoria aumentada

Descubre cómo MA-DLE usa memoria aumentada y atención jerárquica para estimar el nivel de depresión a partir de la voz, logrando resultados de vanguardia.

2026-06-11 · 2 min

Superando inercia de estado con dirección de activación en voz full-duplex

Descubre cómo la dirección de activación mejora la comprensión de interrupciones en modelos de voz full-duplex, elevando la precisión del 28% al 45% sin necesidad de entrenamiento.

2026-06-11 · 1 min

Superando la inercia de estado en SLMs full-duplex con activación dirigida

Activación dirigida mejora comprensión de interrupciones en SLMs full-duplex. Corrección sube 28% a 45% y tasa palabra inicial 40% a 72%.

2026-06-11 · 2 min

Análisis de IA de patrones acústicos en la enseñanza en equipo

Descubre cómo el análisis con IA de patrones acústicos en enseñanza en equipo revela diferencias de volumen según experiencia, cohorte y tareas.

2026-06-10 · 1 min

Evaluación de personalidad en interacciones laborales diádicas

La personalidad percibida varía según el contexto laboral. El estrés afecta al neuroticismo; la acústica predice rasgos en roles diádicos.

2026-06-10 · 2 min

Optimalidad de tokens FSQ en difusión continua para datos categóricos (TTS)

Los tokens FSQ son óptimos para difusión continua en datos categóricos. Este estudio demuestra que superan a modelos LLM en TTS siendo más pequeños y rápidos.

2026-06-10 · 2 min

Interpretación y control de un modelo TTS con autoencoders dispersos

Aprende cómo los autoencoders dispersos permiten interpretar y controlar un modelo de texto a voz: desde risas hasta género y velocidad.

2026-06-10 · 2 min

Evaluación automática de pronunciación infantil coreana con diarización y aprendizaje autosupervisado

Descubre cómo la combinación de diarización de voz y aprendizaje autosupervisado logra un 78% de precisión en la evaluación de pronunciación de niños coreanos de 2 a 5 años.

2026-06-10 · 2 min

LinguAS: datos de audio aumentados con señales lingüísticas

El dataset LinguAS mejora la detección de deepfakes añadiendo señales lingüísticas al audio. Descubre cómo los modelos avanzan contra el fraude vocal.

2026-06-10 · 2 min

Reconocimiento de emociones en habla árabe con deep learning

Descubre cómo la arquitectura CNN-Transformer logra un 98.1% de precisión en el reconocimiento de emociones en habla árabe, superando a modelos como wav2vec 2.0.

2026-06-10 · 2 min

Titans: memoria en tiempo de prueba para emociones conversacionales

Descubre cómo Titans introduce memoria en tiempo de prueba para mejorar el reconocimiento de emociones en conversaciones, sin alterar el modelo base. ¡Lee más!

2026-06-09 · 2 min

Detección de suplantación invariante al hablante con inversión de gradiente

Descubre cómo nuestro modelo de detección de suplantación reduce un 25.7% el error al eliminar el sesgo del hablante, sin usar etiquetas de identidad.

2026-06-09 · 3 min

Detección de Parkinson mediante aprendizaje multi-vista de voz con atención multimodal

Aprende cómo un modelo deep learning con atención multimodal alcanza 91.5% de precisión detectando Parkinson usando voz.

2026-06-09 · 2 min

GenTSE: Extracción de Voz Objetivo con Modelo Generativo

GenTSE: modelo generativo en dos etapas para extraer la voz objetivo con alta calidad. Supera a sistemas previos en inteligibilidad y consistencia. Entrenamiento con DPO alinea la salida perceptual.

2026-06-09 · 1 min

Liberando capacidades de LLM en modelos de habla full-duplex

LWS permite a los LLM generar texto visible en tiempo real mientras hablan, mejorando la interacción full-duplex.

2026-06-09 · 1 min

Correlación geométrica de segundo orden para reconocer emociones en habla

Reconocimiento de emociones en habla con correlación geométrica de segundo orden. Aprendizaje auto-supervisado preserva geometría de características.

2026-06-08 · 2 min

IRAF: Fusión Adaptativa Resistente a Interferencias para Diálogo Full-Dúplex

Mejora la robustez de asistentes de voz con IRAF: un módulo que adapta la fusión de audio para filtrar interferencias y optimizar diálogos full-dúplex.

2026-06-08 · 1 min