SpectCount: conteo espectrotemporal con señales sintéticas
Descubre cómo SpectCount usa señales sintéticas para mejorar la comprensión auditiva de modelos de audio grandes, superando debilidades perceptuales con datos eficientes.
Descubre cómo SpectCount usa señales sintéticas para mejorar la comprensión auditiva de modelos de audio grandes, superando debilidades perceptuales con datos eficientes.
Descubre cómo la alineación de señales acústicas mejora el reconocimiento de emociones en modelos de lenguaje de audio. Resultados en FAU-Aibo e IEMOCAP.
Descubre EntangleCodec, el tokenizador de audio que unifica semántica y acústica. Mejora la comprensión de audio en un 7.4% y escala desde 0.6B a 8B parámetros, superando modelos mucho más grandes.