TheoremBench: Evaluación de LLMs en demostración de teoremas matemáticos formales
TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal.
TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal.
Descubre cómo LEAP, un marco agentivo, potencia LLMs para resolver problemas formales de matemáticas, superando récords en competiciones como Putnam e IMO.