#whisper

Detección de confianza en el habla: pseudoetiquetado y embeddings de Whisper

Descubre cómo pseudoetiquetado y embeddings Whisper logran 75% de precisión en detección de confianza del hablante, mejorando el feedback educativo.

2026-06-16 · 2 min

Detección semisupervisada de confianza en habla con Whisper

Descubre cómo la combinación de pseudoetiquetado y embeddings de Whisper alcanza un 75% de precisión detectando confianza en el habla. Ideal para educación.

2026-06-16 · 2 min

aMuseMe: Cuando Modelos Pequeños Componen una Sinfonía Visual

Descubre aMuseMe: transforma cualquier canción en un video de letras animado con sincronía perfecta usando solo modelos locales.

2026-06-16 · 3 min

Whisper es gratis y bueno. Por qué lo superamos

¿Whisper es suficiente? Comparamos su rendimiento real contra Speechmatics On-Device. Resultados sorprendentes en velocidad y memoria.

2026-06-15 · 2 min

Whisper es gratuito y bueno: por qué nuestro modelo lo supera

Whisper es gratuito, pero no siempre el mejor. Comparamos su rendimiento local con Speechmatics: 4x más rápido en Apple, menor uso de memoria y más precisión.

2026-06-15 · 4 min

Escucha atenta: LEAF-X, explicabilidad guiada por entropía para ASR

LEAF-X mejora la explicabilidad de modelos de audio como Whisper. Logra un 32% más de fidelidad y atribuciones más claras. ¡Transparencia en ASR!

2026-06-15 · 2 min

Compresión sin datos ni entrenamiento para modelos de voz mediante agrupación de parámetros

Descubre cómo comprimir modelos de voz como HuBERT y Whisper sin necesidad de datos ni entrenamiento, reduciendo el WER hasta un 34% sin pérdida significativa. ¡Optimiza tu IA!

2026-06-11 · 3 min

Evaluación de personalidad y cognición con embeddings multimodales congelados

Descubre cómo los embeddings multimodales congelados mejoran la predicción de personalidad y capacidad cognitiva en video entrevistas asíncronas.

2026-06-11 · 2 min

Whisfusion: Decodificación ASR Paralela con Difusión Enmascarada

Whisfusion revoluciona la transcripción ASR con decodificación paralela usando difusión enmascarada, superando a Whisper en precisión y velocidad hasta 5x.

2026-06-10 · 2 min

Ajuste fino de Whisper para ASR en alemán suizo: 25.6% WER honesto

Descubre cómo el fine-tuning de Whisper logra 25.6% WER en alemán suizo, evitando contaminación de benchmarks. Un análisis honesto con 13.8% cWER y modelos públicos.

2026-06-09 · 2 min

Detección y mitigación de alucinaciones en Whisper con autoencoders dispersos

Reduce alucinaciones de Whisper hasta un 86% usando autoencoders dispersos. Aprende la técnica de steering en representaciones ocultas.

2026-06-08 · 2 min

BaltiVoice: Corpus de voz y sistema Whisper ASR ajustado para el balti

Descubre BaltiVoice, el primer corpus de voz público para el idioma balti. Ajustamos Whisper y reducimos el error de 182% a 30%. ¡Modelo y demo disponibles!

2026-06-03 · 2 min

CoughSense: Clasificación de enfermedades respiratorias con Whisper

CoughSense clasifica tos en 5 enfermedades con 82.3% de precisión usando Whisper y aprendizaje contrastivo. Descubre cómo supera el desbalance de clases.

2026-06-03 · 2 min

CoughSense: clasificación de enfermedades respiratorias en 5 clases

CoughSense clasifica tos en 5 enfermedades con 82.3% precisión. Descubre atención activa en Whisper y fusión dual.

2026-06-03 · 4 min

VocSim: Benchmark sin entrenamiento para identidad de contenido en audio

VocSim evalúa representaciones de audio sin entrenamiento usando Precision@k y GSR. Whisper + PCA logran alto rendimiento, pero falla en lenguas de bajos recursos. Código y leaderboard disponibles.

2026-06-02 · 2 min

ASKD-Whisper: Destilación Adaptativa para Reconocimiento de Voz Eficiente

Descubre ASKD-Whisper, una técnica de destilación adaptativa que acelera 5x el reconocimiento de voz y supera al profesor en precisión.

2026-06-02 · 1 min