Lo fácil, lo difícil y lo aprendible: optimización adaptativa para LLM Descubre CoDaPO: un método que asigna pesos adaptativos por dificultad y confianza para mejorar el razonamiento en LLM con aprendizaje por refuerzo. Resultados en 12 benchmarks. 2026-06-09 · 2 min