#asr · DeepCodeNews

Aprendizaje Federado Personalizado para Reconocimiento de Voz Disártrica

Mejora el reconocimiento de voz disártrica con aprendizaje federado personalizado. Descubre estrategias que reducen el WER hasta un 4.73% relativo. ¡Protege la privacidad!

2026-06-12 · 2 min

Corrección de ASR con memoria de ontología en conversaciones largas

Corrige errores de ASR en conversaciones largas usando una memoria ontológica que contextualiza el diálogo y mejora la precisión.

2026-06-12 · 2 min

AuRA: internalizando audio en LLMs mediante LoRA

Descubre cómo AuRA internaliza la comprensión del audio en LLMs mediante LoRA, superando a sistemas en cascada con mayor eficiencia y precisión.

2026-06-10 · 2 min

AuRA: Internalizando la Comprensión de Audio en LLMs como LoRA

Descubre AuRA: integra comprensión de audio en LLMs mediante LoRA para modelado conjunto y eficiente inferencia paralela. Supera a sistemas en cascada.

2026-06-10 · 2 min

Whisfusion: Decodificación ASR Paralela con Difusión Enmascarada

Whisfusion revoluciona la transcripción ASR con decodificación paralela usando difusión enmascarada, superando a Whisper en precisión y velocidad hasta 5x.

2026-06-10 · 2 min

Adición de observaciones guiada por inteligibilidad sin entrenamiento para ASR ruidoso

Mejora el reconocimiento de voz en entornos ruidosos con un nuevo método sin entrenamiento que fusiona señales de forma inteligente. Aumenta la precisión y robustez.

2026-06-09 · 2 min

Ajuste fino de Whisper para ASR en alemán suizo: 25.6% WER honesto

Descubre cómo el fine-tuning de Whisper logra 25.6% WER en alemán suizo, evitando contaminación de benchmarks. Un análisis honesto con 13.8% cWER y modelos públicos.

2026-06-09 · 2 min

Conoce a Speechmatics: Empresa de la Semana de HackerNoon

Speechmatics es la empresa de IA de voz destacada esta semana. Su tecnología de transcripción en tiempo real entiende acentos, ruido y jerga. Descubre más.

2026-06-09 · 2 min

Microsoft AI presenta MAI-Transcribe-1.5: ASR multilingüe ultrarrápido

Descubre MAI-Transcribe-1.5: precisión récord en FLEURS, velocidad 5x superior y biasing de entidades. Ideal para transcripción empresarial.

2026-06-08 · 2 min

Escuchando lo no dicho: Ataques acústicos con LLM

El ataque Semantic Gambit explota LLMs para aumentar el Word Error Rate al 35.6% en ASR en tiempo real. Conoce esta nueva vulnerabilidad.

2026-06-08 · 1 min

Detección y mitigación de alucinaciones en Whisper con autoencoders dispersos

Reduce alucinaciones de Whisper hasta un 86% usando autoencoders dispersos. Aprende la técnica de steering en representaciones ocultas.

2026-06-08 · 2 min

Nemotron 3.5 ASR: modelo de reconocimiento de voz en tiempo real con 40 idiomas

Descubre Nemotron 3.5 ASR de NVIDIA: modelo de 600M parámetros que transcribe 40 idiomas en tiempo real con latencia ajustable. Código abierto en Hugging Face.

2026-06-06 · 3 min

Ataques adversarios en ASR más allá de la forma de onda

Nuevo ataque adversario en ASR evade defensas al perturbar representaciones SSL, mejorando la transferibilidad como en Whisper.

2026-06-06 · 2 min

TA4922: grupo chino lanza phishing a Reino Unido, Alemania, Italia y Sudáfrica

El grupo TA4922 vinculado a China expande ataques de phishing a Reino Unido, Alemania, Italia y Sudáfrica usando malware ValleyRAT y AtlasRAT.

2026-06-04 · 1 min

Escalado de cómputo en tiempo de prueba para ASR con Transformers en bucle

Optimiza el reconocimiento de voz con LARM: un Transformer en bucle que escala el cómputo en tiempo de prueba, mejorando la tasa de error de palabras.

2026-06-04 · 1 min

Modelo de Audio Interactivo para Streaming en Tiempo Real

Descubre cómo el modelo Audio-Interaction unifica tareas de audio en streaming, permitiendo interacción en tiempo real con percepción, decisión y respuesta proactiva.

2026-06-04 · 3 min

FSA-GRPO: Cómo entrenar LLMs auditivos con pocos ejemplos

Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.

2026-06-03 · 1 min

BaltiVoice: Corpus de voz y sistema Whisper ASR ajustado para el balti

Descubre BaltiVoice, el primer corpus de voz público para el idioma balti. Ajustamos Whisper y reducimos el error de 182% a 30%. ¡Modelo y demo disponibles!

2026-06-03 · 2 min

Entrenamiento ASR eficiente con conversaciones que nunca ocurrieron

Descubre cómo generar conversaciones sintéticas con LLM y TTS para entrenar ASR de forma eficiente, logrando mejor rendimiento con pocos datos reales

2026-06-03 · 1 min

AlignAtt4LLM: Traducción simultánea con LLMs decoder-only

AlignAtt4LLM logra traducción simultánea inglés-alemán/italiano con baja latencia aplicando AlignAtt en LLMs solo decodificador. Resultados superiores.

2026-06-03 · 3 min