#procesamiento de audio

Afrispeech Semantics: Evaluación del razonamiento semántico en audio

Descubre cómo los modelos de lenguaje de audio manejan el razonamiento semántico en distintos acentos y dominios. Evaluación de Afrispeech Semantics.

2026-06-11 · 2 min

RAIL: Benchmark Cognitivo de Inteligencia Auditiva en LALMs

RAIL es un benchmark cognitivo CHC para evaluar inteligencia auditiva en modelos de audio-lenguaje. Revela diferencias en percepción, razonamiento y memoria.

2026-06-11 · 2 min

Siddhish Sutaria y Jolly Shah: Evolución de sistemas embebidos

Los ingenieros de Apple y Google revelan cómo la IA y el cloud impulsan la evolución de los sistemas embebidos. Descubre su visión.

2026-06-11 · 3 min

AuRA: internalizando audio en LLMs mediante LoRA

Descubre cómo AuRA internaliza la comprensión del audio en LLMs mediante LoRA, superando a sistemas en cascada con mayor eficiencia y precisión.

2026-06-10 · 2 min

Evaluación automática de pronunciación infantil coreana con diarización y aprendizaje autosupervisado

Descubre cómo la combinación de diarización de voz y aprendizaje autosupervisado logra un 78% de precisión en la evaluación de pronunciación de niños coreanos de 2 a 5 años.

2026-06-10 · 2 min

Reconocimiento de emociones en habla árabe con deep learning

Descubre cómo la arquitectura CNN-Transformer logra un 98.1% de precisión en el reconocimiento de emociones en habla árabe, superando a modelos como wav2vec 2.0.

2026-06-10 · 2 min

Adición de observaciones guiada por inteligibilidad sin entrenamiento para ASR ruidoso

Mejora el reconocimiento de voz en entornos ruidosos con un nuevo método sin entrenamiento que fusiona señales de forma inteligente. Aumenta la precisión y robustez.

2026-06-09 · 2 min

MisoTTS: modelo de voz de 8B parámetros para continuación de voz

Descubre MisoTTS, el modelo de 8B parámetros que genera voz continua a partir de texto. Conoce su arquitectura, usos y cómo desplegarlo.

2026-06-09 · 2 min

GlobeAudio: benchmark multilingüe para modelos de audio-lenguaje

Descubre GlobeAudio, el primer benchmark multilingüe y multicultural para evaluar modelos de audio-lenguaje en condiciones realistas. Resultados sorprendentes.

2026-06-09 · 1 min

AeroSpectra Sentinel: evaluación de riesgo de asma con IA auditiva

Descubre AeroSpectra Sentinel, un prototipo que combina STFT, ML y LLM para evaluar riesgo de asma a partir de sonidos respiratorios y señales clínicas. Auditoría segura.

2026-06-09 · 3 min

Clasificación de audio incremental de clases variables con pocos ejemplos

Clasificación de audio con clases variables y pocos ejemplos usando adaptación de prototipos y entrenamiento pseudo-variable. ¡Alta precisión!

2026-06-09 · 3 min

Localización de eventos audiovisuales con grafos heterogéneos jerárquicos

Nuevo método HSCHG mejora la localización de eventos audiovisuales usando grafos heterogéneos jerárquicos con restricciones semánticas.

2026-06-08 · 2 min

IRAF: Fusión Adaptativa Resistente a Interferencias para Diálogo Full-Dúplex

Mejora la robustez de asistentes de voz con IRAF: un módulo que adapta la fusión de audio para filtrar interferencias y optimizar diálogos full-dúplex.

2026-06-08 · 1 min

TargetSEC: Conversión de Emoción del Habla con Difusión Latente

TargetSEC: conversión de emociones en voz con difusión latente. Preserva identidad y supera a otros sistemas en precisión.

2026-06-08 · 2 min

Nemotron 3.5 ASR: modelo de reconocimiento de voz en tiempo real con 40 idiomas

Descubre Nemotron 3.5 ASR de NVIDIA: modelo de 600M parámetros que transcribe 40 idiomas en tiempo real con latencia ajustable. Código abierto en Hugging Face.

2026-06-06 · 3 min

DBHN-Net: Red Híbrida de Doble Rama para Mejora de Voz de Baja Complejidad

¡Descubre DBHN-Net! La red híbrida que reduce 7.5x la complejidad computacional en mejora de voz sin perder rendimiento.

2026-06-05 · 2 min

Estudio de la SI-SDR en separación de voz con referencias ruidosas

Analizamos el impacto de la relación señal-distorsión invariante a escala en la separación de voz con referencias ruidosas. Descubre cómo mejorar la calidad con NISQA.

2026-06-04 · 3 min