Clasificación de sonidos ambientales con difusión en espacio de embeddings
Descubre cómo los modelos de difusión superan a métodos previos en clasificación zero-shot de sonidos ambientales, mejorando la generalización a clases no vistas.
Descubre cómo los modelos de difusión superan a métodos previos en clasificación zero-shot de sonidos ambientales, mejorando la generalización a clases no vistas.
Mejora la calidad de embeddings multimodales con atención colaborativa y reconstrucción de contenido para tareas de recuperación y clasificación.
Descubre LG-Plug, un marco plug-and-play que alinea topología y texto para detectar nodos fuera de distribución en grafos textuales, reduciendo FPR95 >7%.
VocSim evalúa representaciones de audio sin entrenamiento usando Precision@k y GSR. Whisper + PCA logran alto rendimiento, pero falla en lenguas de bajos recursos. Código y leaderboard disponibles.
Descubre cómo los glifos visuales duplican la precisión inicial en modelado de lenguaje chino, pero con un límite final.
Descubre por qué la geometría global no basta para la composición visual y cómo la sensibilidad funcional predice mejor la representación.
ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.
El acento afecta la clonación de voz: clones de habla acentuada son menos similares pero más inteligibles. Estudio revela que preservar el acento es clave.
Descubre cómo los gradientes semánticos revelan la incertidumbre de los LLM. SemGrad y HybridGrad: métodos sin muestreo para predicciones fiables.
CSLR logra entre 3.9 y 5.6 puntos de mejora en aprendizaje continuo federado con privacidad diferencial. Optimiza NLP sin compartir datos.
Descubre las limitaciones teóricas de la predicción de enlaces basada en embeddings y cómo las capas no lineales mejoran el rendimiento en grafos densos.
UR-JEPA logra un 0.83% más de precisión que LeJEPA en Inet10 con menor varianza, y produce representaciones geométricamente distintas.
Descubre cómo WEINCE corrige el sesgo de softmax en InfoNCE usando teoría de valores extremos para mejorar el aprendizaje contrastivo en visión por computadora.
Descubre SENSE: acelera inferencia de LLMs hasta 3.26x usando embeddings semánticos, sin perder calidad. Ideal para desarrolladores.
Recupera correspondencias entre nubes de embeddings de distintos modelos usando consistencia geométrica local y hash referencial. Ideal para integración de bases de datos vectoriales.
Aprende cómo PMB ofrece memoria local persistente para agentes de IA con un sorprendente 94.5% de recall. Sin depender de la nube ni de API keys. ¡Open source!
Descubre si los embeddings generalistas o específicos son mejores para la búsqueda de códigos clínicos en varios idiomas. Estudio empírico con datos sintéticos y mejoras en recall.
PictSure clasifica imágenes con pocos ejemplos usando aprendizaje en contexto. La calidad de los embeddings pre-entrenados es clave. Modelo open source.
Aprende cómo las representaciones hiperesféricas tiempo-frecuencia mejoran la detección de anomalías en series temporales. Resultados con k-NN y Mahalanobis.
Descubre cómo los embeddings como subespacios capturan jerarquías y composición lógica, superando vectores tradicionales en inferencia y negación.