Sesgos distribucionales en post-entrenamiento: análisis markoviano El post-entrenamiento con RLVR y ORM/PRM refuerza sesgos distribucionales. La exploración preserva trayectorias raras. Análisis markoviano. 2026-06-15 · 1 min