#mpe · DeepCodeNews

Softmax Recocido Greedy en Bandidos Bayesianos de Muchos Brazos

Softmax Recocido logra arrepentimiento casi óptimo en bandidos Bayesianos, explicando por qué GRPO funciona sin incertidumbre explícita.

2026-06-01 · 2 min

EchoRL: Aprendizaje por Refuerzo mediante Rollout Echoing

EchoRL identifica EchoClips en rollouts exitosos para proporcionar supervisión auxiliar y mejorar el aprendizaje por refuerzo en LLMs, superando la degeneración de ventajas.

2026-06-01 · 1 min

Representación Terminal en Aprendizaje por Refuerzo

Descubre la Representación Terminal (TR), una nueva formulación en RL que elimina la necesidad de eigenvectores para tareas como descubrimiento de opciones y tr

2026-06-01 · 3 min