Estimación de ventaja basada en representaciones: más que recompensa escalar GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard. 2026-06-10 · 2 min