TheoremBench: Evaluación de LLMs en demostración de teoremas matemáticos formales TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal. 2026-06-09 · 2 min