#oragentbench

ORAgentBench: Nuevo benchmark para agentes LLM en Investigación Operativa

ORAgentBench evalúa agentes LLM en investigación operativa. Solo el 35.5% de tareas son superadas; descubre por qué fallan y las lecciones.