#codapo

Lo fácil, lo difícil y lo aprendible: optimización adaptativa para LLM

Descubre CoDaPO: un método que asigna pesos adaptativos por dificultad y confianza para mejorar el razonamiento en LLM con aprendizaje por refuerzo. Resultados en 12 benchmarks.

2026-06-09 · 2 min