SciR: Un Benchmark Controlable para Razonamiento Científico en LLMs
SciR: benchmark controlable para razonamiento científico en LLMs. Evalúa deducción, inducción y causalidad. Dificultad ajustable.
SciR: benchmark controlable para razonamiento científico en LLMs. Evalúa deducción, inducción y causalidad. Dificultad ajustable.
Descubre CA-BED: un marco que integra diseño bayesiano experimental con LLMs para elegir preguntas óptimas en diálogos. Mejora un 21.8% el éxito con solo 1.8 turnos extra.