Hermes: razonamiento matemático eficiente y verificable en LLMs
Descubre Hermes: agente que combina razonamiento informal y verificación formal en Lean para mejorar precisión matemática en LLMs un 40% con 80% menos coste.
Descubre Hermes: agente que combina razonamiento informal y verificación formal en Lean para mejorar precisión matemática en LLMs un 40% con 80% menos coste.
Lookahead Group Reward combate la degradación de fidelidad en destilación on-policy, mejorando el razonamiento en modelos de IA hasta 4.92 puntos en AIME-26.