Detección de confianza en el habla: pseudoetiquetado y embeddings de Whisper
Descubre cómo pseudoetiquetado y embeddings Whisper logran 75% de precisión en detección de confianza del hablante, mejorando el feedback educativo.
Descubre cómo pseudoetiquetado y embeddings Whisper logran 75% de precisión en detección de confianza del hablante, mejorando el feedback educativo.
Descubre cómo la combinación de pseudoetiquetado y embeddings de Whisper alcanza un 75% de precisión detectando confianza en el habla. Ideal para educación.
Descubre aMuseMe: transforma cualquier canción en un video de letras animado con sincronía perfecta usando solo modelos locales.
¿Whisper es suficiente? Comparamos su rendimiento real contra Speechmatics On-Device. Resultados sorprendentes en velocidad y memoria.
Whisper es gratuito, pero no siempre el mejor. Comparamos su rendimiento local con Speechmatics: 4x más rápido en Apple, menor uso de memoria y más precisión.
LEAF-X mejora la explicabilidad de modelos de audio como Whisper. Logra un 32% más de fidelidad y atribuciones más claras. ¡Transparencia en ASR!
Descubre cómo comprimir modelos de voz como HuBERT y Whisper sin necesidad de datos ni entrenamiento, reduciendo el WER hasta un 34% sin pérdida significativa. ¡Optimiza tu IA!
Descubre cómo los embeddings multimodales congelados mejoran la predicción de personalidad y capacidad cognitiva en video entrevistas asíncronas.
Whisfusion revoluciona la transcripción ASR con decodificación paralela usando difusión enmascarada, superando a Whisper en precisión y velocidad hasta 5x.
Descubre cómo el fine-tuning de Whisper logra 25.6% WER en alemán suizo, evitando contaminación de benchmarks. Un análisis honesto con 13.8% cWER y modelos públicos.
Reduce alucinaciones de Whisper hasta un 86% usando autoencoders dispersos. Aprende la técnica de steering en representaciones ocultas.
Descubre BaltiVoice, el primer corpus de voz público para el idioma balti. Ajustamos Whisper y reducimos el error de 182% a 30%. ¡Modelo y demo disponibles!
CoughSense clasifica tos en 5 enfermedades con 82.3% de precisión usando Whisper y aprendizaje contrastivo. Descubre cómo supera el desbalance de clases.
CoughSense clasifica tos en 5 enfermedades con 82.3% precisión. Descubre atención activa en Whisper y fusión dual.
VocSim evalúa representaciones de audio sin entrenamiento usando Precision@k y GSR. Whisper + PCA logran alto rendimiento, pero falla en lenguas de bajos recursos. Código y leaderboard disponibles.
Descubre ASKD-Whisper, una técnica de destilación adaptativa que acelera 5x el reconocimiento de voz y supera al profesor en precisión.