Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking. 2026-06-16 · 2 min