Evaluación del razonamiento interactivo en LLMs: benchmark jerárquico con juegos Descubre cómo un nuevo benchmark evalúa el razonamiento interactivo de los LLMs mediante juegos ejecutables, midiendo éxito, eficiencia y adaptación metacognitiva. 2026-06-02 · 2 min