#datasets

The Atlantic crea base de datos de música usada para entrenar IA

El Atlantic revela una base de datos de millones de canciones usadas para entrenar IA. Google y Stability AI la han utilizado. Descúbrela.

2026-06-21 · 2 min

Datasets de lengua de señas a gran escala: encuesta exhaustiva

Descubre la encuesta más completa sobre datasets de lengua de señas: 120 recursos, 35 lenguas, desafíos de anotación y benchmarks. Ideal para investigadores y

2026-06-19 · 2 min

PrefSQA: Predicción de Preferencia Pareada para Calidad de Voz

Descubre PrefSQA: predicción de preferencias pareadas para evaluar calidad de voz. Datasets de alta calidad mejoran resultados. Sin MOS.

2026-06-19 · 2 min

Límites de localización por nacionalidad en datasets multilingües de salud

Descubre cómo la localización por nacionalidad en datasets multilingües de salud mental causa inconsistencias y sesgos al evaluar depresión por LLM.

2026-06-19 · 1 min

Selección eficiente de modelos para datasets de pocas clases

Descubre cómo elegir modelos neuronales más rápidos y pequeños para datasets con pocas clases. Ahorra recursos sin perder precisión.

2026-06-19 · 3 min

Meta-clasificación de modelos OCC con correlación de ranking y vecino cercano

Aprende a clasificar modelos OCC con correlación de ranking y vecino cercano. Alta precisión en datasets y algoritmos. Código público.

2026-06-17 · 2 min

Clasificación meta de modelos de una clase usando ranking y vecinos cercanos

Meta-clasificación de modelos OCC con ranking y vecino cercano: alta precisión clasificando datos y algoritmos. Solución unificada de modelos, datos y rankings.

2026-06-17 · 2 min

FineGen: Marco multiagente basado en VLM para datasets detallados

Descubre FineGen, un marco multiagente basado en VLM que construye datasets de imagen-texto con muestras negativas duras, logrando un 96.7% de validez y +14.4%

2026-06-16 · 3 min

Aprendizaje no supervisado para modalidades faltantes en aprendizaje multimodal

Descubre cómo UL4M4 imputa embeddings faltantes en aprendizaje multimodal mediante clustering no supervisado, logrando F1 >0.7 incluso con >50% de datos

2026-06-16 · 1 min

Segmentación de imágenes médicas: desafíos, benchmarks y más allá

Descubre los desafíos y benchmarks en segmentación de imágenes médicas con métodos U-Net, Transformer y SAM. Guía para investigadores y profesionales.

2026-06-16 · 1 min

¿Puede el trabajo con datos ser reparador?

Descubre cómo un enfoque feminista y colaborativo busca reparar el trabajo con datos para la seguridad en línea, redefiniendo la responsabilidad en la IA.

2026-06-16 · 1 min

Construcción de datasets de evaluación para razonamiento procedimental

Comparativa de estrategias de generación de preguntas para razonamiento procedimental. La generación estricta TMK logra 96.5% de preguntas fundamentadas.

2026-06-12 · 3 min

Foro matemático: resolución colaborativa y generación de datasets para IA

Plataforma que integra OCR para convertir fórmulas a LaTeX, facilitando la colaboración y generando datasets para entrenar IA en razonamiento matemático.

2026-06-12 · 3 min

SDQM: Métrica de calidad de datos sintéticos para evaluar datasets de detección

Descubre SDQM, la métrica que evalúa la calidad de datos sintéticos para detección de objetos sin necesidad de entrenar modelos. Ahorra tiempo y recursos.

2026-06-11 · 2 min

DeMix: Depuración de datos de entrenamiento con errores mixtos

Aprende cómo DeMix diagnostica errores mixtos en datos de entrenamiento usando vectores de influencia. Logra un 22.61% más de precisión en limpieza de datos.

2026-06-11 · 1 min

RCAP: poda dinámica de datos robusta y consciente de clases

Descubre RCAP, un algoritmo de poda dinámica que mantiene alta precisión en clases minoritarias usando solo el 10% de los datos. ¡Acelera tu entrenamiento!

2026-06-11 · 2 min

GraspLLM: Generalización zero-shot en grafos de texto con LLMs

GraspLLM combina LLMs y aprendizaje contrastivo para generalizar sin entrenamiento en múltiples datasets de grafos textuales. Logra rendimiento superior zero-shot.

2026-06-11 · 2 min

Límites éticos y técnicos de los datasets de voz deepfake

Un análisis de 39 datasets de voz deepfake revela graves carencias de metadatos demográficos y superposición de fuentes, comprometiendo la equidad y la validez de los detectores.

2026-06-10 · 2 min

EEVEE: Aprendizaje de prompts en tiempo de prueba para agentes automejorables

Descubre EEVEE, marco de aprendizaje de prompts en tiempo de prueba para agentes LLM que maneja múltiples datasets y mejora el rendimiento hasta un 48%

2026-06-10 · 2 min

Recursos multilingües de entrenamiento y evaluación para modelos de lenguaje visual

Descubre Multi-PixMo, un conjunto de datos multilingüe para entrenar modelos de lenguaje visual. Mejora el rendimiento en 5 idiomas europeos con benchmarks traducidos. ¡Optimiza tu VLM!

2026-06-09 · 3 min