Más que respuestas: Evaluación verificable del razonamiento químico paso a paso
Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.
Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.
<meta name=description content=Evaluamos el realismo de agentes sociales usando LLMs a partir de reacciones a noticias españolas. Un análisis innovador sobre inteligencia artificial y medios.>
<meta name=description content=TIGER recupera reacciones enzimáticas de forma generalizada usando texto. Descubre cómo esta herramienta optimiza la búsqueda en bioinformática.>