#razonamiento científico

Evaluación del razonamiento relacional en LLMs con REL

Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.

2026-06-03 · 2 min

FeynmanBench: El reto de los LLMs multimodales con diagramas de Feynman

FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.

2026-06-03 · 2 min

FEM-Bench: benchmark científico para LLMs de código

Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.

2026-06-01 · 2 min