Evaluación del razonamiento relacional en LLMs con REL
Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.
Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.
FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.
Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.