Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas
Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.
Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.