MatSciBench: Evaluando la capacidad de razonamiento de los LLM en ciencia de materiales
MatSciBench evalúa LLM en ciencia de materiales: DeepSeek-R1 logra 75% en texto, GPT-5 53% en imágenes. Descubre sus limitaciones.
MatSciBench evalúa LLM en ciencia de materiales: DeepSeek-R1 logra 75% en texto, GPT-5 53% en imágenes. Descubre sus limitaciones.