MedicalAgentsBench: razonamiento médico complejo, modelos vs agentes Descubre MedicalAgentsBench, el benchmark de 862 preguntas clínicas que compara modelos internos vs agentes externos. La combinación alcanza un 35.1% de 2026-06-17 · 1 min