MAD-OPD: Rompiendo el techo en la destilación on-policy mediante debate multiagente Descubre cómo el debate multiagente rompe el techo en destilación on-policy, superando límites en aprendizaje por refuerzo. 2026-05-05 · 2 min