ORAgentBench: Nuevo benchmark para agentes LLM en Investigación Operativa ORAgentBench evalúa agentes LLM en investigación operativa. Solo el 35.5% de tareas son superadas; descubre por qué fallan y las lecciones. 2026-06-19 · 2 min