Riemann-Bench: benchmark de matemáticas de investigación
Nuevo benchmark Riemann-Bench: la IA solo alcanza menos del 10% en matemáticas de investigación. ¿Qué tan lejos están de los humanos?
Nuevo benchmark Riemann-Bench: la IA solo alcanza menos del 10% en matemáticas de investigación. ¿Qué tan lejos están de los humanos?
Nuevo pipeline logra 67.1% en problemas de la Olimpiada Matemática por solo $31 por pregunta, superando a modelos costosos y estableciendo un nuevo estado del
Descubre MaxProof: RL generativo-verificador y escalado poblacional para récords en olimpiadas. Supera humanos en IMO y USAMO.
ComBench: el mejor modelo solo alcanza 65.4% en problemas de combinatoria olímpica. Descubre las brechas.