FALSIFYBENCH: Evaluando razonamiento inductivo en LLMs con juegos de reglas
FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.
FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.