RL basado en resultados guía a transformers a razonar solo con datos adecuados ¿Sabías que los transformers pueden aprender a razonar con solo recompensas finales? Un nuevo estudio revela que los datos simples son la clave. 2026-06-04 · 2 min