Evaluación de generalización semántica en LLMs con construcciones frasales
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.
Descubre Auto-Discovery-Bench, un benchmark diagnóstico para evaluar la capacidad de agentes de IA de mantener y actualizar creencias estructuradas en descubrimiento interactivo guiado.
Descubre la nueva métrica de fiabilidad conforme para evaluar modelos generativos. Aprende cómo CReL optimiza el peor caso en generación condicional.
Descubre si la precisión de clasificación es una métrica confiable para evaluar la detección de deriva de concepto. Analizamos 8 métricas en flujos de datos sintéticos.
Descubre cómo medir la alineación de preferencias en modelos de lenguaje con un observable ordinal. Estadística simple y estimadores con concentración.
Descubre AMNESIA, el primer benchmark masivo para evaluar desaprendizaje en LLMs médicos. ¿Cómo olvidar pacientes sin perder conocimiento clínico? Entra.
Descubre cómo los rankings de modelos de embeddings multilingües varían según tareas y lenguas. Un metaestudio revela qué modelos son realmente robustos. ¡Mejora tu comprensión de benchmarks!