Dilema representación-racionalización en aprendizaje de recompensas Descubre el dilema entre representación y racionalización en RLHF: cómo el embedding afecta la consistencia de las recompensas y los límites de la optimización. 2026-06-02 · 2 min