VIMPO: Optimización de Políticas con Valor Implícito para LLMs VIMPO: optimización con valor implícito para LLMs. Mejora el razonamiento matemático sin crítico, superando a GRPO en benchmarks. 2026-06-19 · 2 min