ForeSci: Evaluando agentes LLM para juicios prospectivos en investigación de IA
ForeSci: un benchmark temporal para evaluar si los agentes LLM pueden emitir juicios prospectivos en investigación de IA a partir de evidencia histórica.
ForeSci: un benchmark temporal para evaluar si los agentes LLM pueden emitir juicios prospectivos en investigación de IA a partir de evidencia histórica.