#deducción

SciR: Un Benchmark Controlable para Razonamiento Científico en LLMs

SciR: benchmark controlable para razonamiento científico en LLMs. Evalúa deducción, inducción y causalidad. Dificultad ajustable.

2026-06-12 · 2 min

CA-BED: Diseño Bayesiano Experimental en Conversaciones

Descubre CA-BED: un marco que integra diseño bayesiano experimental con LLMs para elegir preguntas óptimas en diálogos. Mejora un 21.8% el éxito con solo 1.8 turnos extra.

2026-06-02 · 2 min