#aprendizaje por refuerzo eficiente

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

Aprendizaje por Refuerzo basado en Difusión Eficiente en Muestras con Guía de Crítica

2026-05-29 · 2 min