Explorando el diseño de retropropagación de recompensa para Flow Matching Descubre FlowBP, un nuevo marco que optimiza la retropropagación de recompensa en modelos de Flow Matching, mejorando la alineación sin saturar la memoria. 2026-06-10 · 2 min