Evaluación de LLMs para formalización matemática en Lean
Descubre qué modelos de LLM son más efectivos para generar pruebas formales en Lean 4. Gemini y Claude lideran, pero Nemotron es el más eficiente.
Descubre qué modelos de LLM son más efectivos para generar pruebas formales en Lean 4. Gemini y Claude lideran, pero Nemotron es el más eficiente.
Descubre Goedel-Architect, el marco agéntico que revoluciona la demostración formal en Lean 4. Alcanza un 99.2% en MiniF2F y 75.6% en PutnamBench. Ahorra hasta 500x en costos.
Descubre Lean-GAP: 430 problemas de álgebra formalizados en Lean 4. Pipeline automatizado con verificación humana. Desafíos y metodología.
Descubre cómo un marco de IA resuelve problemas matemáticos complejos combinando razonamiento informal y verificación formal en Lean 4, todo sin intervención humana.
EVA: nueva técnica de alineación de valor esperado que permite recompensas continuas en verificación formal de matemáticas con Lean 4. Mejora la evaluación de pasos intermedios.