#agentes caja negra

Agentic Monte Carlo: Aprendizaje por Refuerzo en Agentes Caja Negra

Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.