Agentic Monte Carlo: Aprendizaje por Refuerzo en Agentes Caja Negra Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana. 2026-06-05 · 2 min