Maximum Independent Set para la selección eficiente de prompts en benchmarks de LLM
Descubre cómo la selección de prompts con Maximum Independent Set reduce hasta un 48% el costo de evaluar LLMs en benchmarks, manteniendo rankings consistentes.
Descubre cómo la selección de prompts con Maximum Independent Set reduce hasta un 48% el costo de evaluar LLMs en benchmarks, manteniendo rankings consistentes.
HOPM: mutación de prompts con doble retroalimentación mejora documentos de evidencia +11% en tasa de victorias. Estudio de caso.
TimeSage-MT evalúa la capacidad de agentes IA en análisis de series temporales a lo largo de múltiples turnos. Descubre sus debilidades en memoria y toma de decisiones.
Descubre los límites de los grandes modelos de lenguaje al interpretar el significado pragmático de respuestas no verbales. Un estudio revela caídas de precisión de hasta el 60%.
Un estudio revela que combinar datos reales y sintéticos con un cronograma de entrenamiento específico aumenta la precisión en detección de manos con guantes, clave para seguridad laboral.
StressDream optimiza el ruido de modelos de video para generar futuros plausibles y críticos. Evalúa y mejora políticas robóticas identificando fallos.
PlanarBench evalúa la capacidad de los LLMs para dibujar grafos planos en ASCII. Descubre cómo el número de aristas predice el rendimiento de 91 modelos.
Descubre por qué las métricas de ranking como AP y FPR-95 fallan en evaluar la asignación correcta de objetos en múltiples vistas. La normalización Sinkhorn como solución.
Descubre SUPREME, framework open-source que acelera evaluación de desaprendizaje en imágenes usando múltiples GPUs. Reproducible y eficiente.
Mejora la reescritura de textos cortos con Phi Silica. Aprende a aplicar fine-tuning para mayor fidelidad semántica y menos alucinaciones. ¡Resultados sorprendentes!
Descubre por qué la edición de parámetros en LLMs daña capacidades clave. Evidencia empírica muestra que la recuperación supera a la edición paramétrica.
Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.
Descubre cómo evaluar proveedores para reemplazar Excel con aplicaciones personalizadas. Claves: experiencia, metodología, soporte y costo. Solicita un piloto.
Descubre por qué los modelos de razonamiento (LRM) fallan al evaluar soluciones, pese a generarlas. Analizamos el sesgo de confirmación y el dataset VAIR.
Descubre cómo un interfaz BCI musical minimalista usa EEG para sonificar emociones y los desafíos de la asimetría alfa frontal.
Descubre GenPT, un innovador método de psicometría para LLM que evita sesgos de autoinforme mediante pruebas proyectivas generativas. Mayor fiabilidad y sensibilidad contextual.
Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.
Los LLMs no siempre son consistentes en programación. Un estudio revela que la precisión puede superar la estabilidad hasta 17.8 puntos. ¡Descubre por qué!
Conoce CV-Arena: un benchmark abierto con 12K pares de imágenes para evaluar edición guiada por instrucciones, combinando preferencias humanas e IA.
Descubre cómo evaluamos la consistencia de 11 benchmarks populares con 38,081 artículos, revelando implicaciones para la investigación causal.