#benchmarks de agentes

EnvRL: Aprendizaje por Refuerzo Agentivo con Dinámicas del Entorno

Descubre EnvRL, un marco que mejora el aprendizaje por refuerzo agentivo al integrar dinámicas del entorno. Logra tasas de éxito superiores en ALFWorld y

2026-06-17 · 2 min

Fortalecimiento de benchmarks de agentes con bucles hacker-fixer

Descubre cómo el bucle hacker-fixer protege benchmarks de agentes contra reward hacking, eliminando el 100% de exploits en KernelBench. Una solución

2026-06-16 · 2 min