El problema del auto-bloqueo de información en RL para agentes LLM Descubre cómo el auto-bloqueo de información afecta el razonamiento activo de agentes LLM y cómo el método AREW lo mitiga, logrando mejoras de hasta 60 puntos. 2026-06-03 · 1 min