PSEBench: Benchmark para evaluar LLMs en triaje de seguridad del paciente
Descubre PSEBench, el nuevo benchmark verificable para evaluar LLMs en el triaje de eventos de seguridad del paciente. Resultados clave y brechas identificadas.
Descubre PSEBench, el nuevo benchmark verificable para evaluar LLMs en el triaje de eventos de seguridad del paciente. Resultados clave y brechas identificadas.
MedFact evalúa 20 LLM en verificación de hechos médicos chinos. Hallazgo clave: los modelos son malos localizando errores y sufren 'sobrecrítica'. Lee más.