Más que respuestas: Evaluación verificable del razonamiento químico paso a paso Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas. 2026-06-03 · 2 min