#evaluación de inteligencia artificial

ForeSci: Evaluando agentes LLM para juicios prospectivos en investigación de IA

ForeSci: un benchmark temporal para evaluar si los agentes LLM pueden emitir juicios prospectivos en investigación de IA a partir de evidencia histórica.

2026-06-02 · 3 min