#mejora con herramientas

MatSciBench: Evaluando la capacidad de razonamiento de los LLM en ciencia de materiales

MatSciBench evalúa LLM en ciencia de materiales: DeepSeek-R1 logra 75% en texto, GPT-5 53% en imágenes. Descubre sus limitaciones.