Mismo paciente, diferentes palabras: estabilidad semántica en LLMs clínicos
¿Los LLMs clínicos son inconsistentes ante cambios en las preguntas? Un estudio mide su estabilidad semántica y propone métricas para evaluarla.
¿Los LLMs clínicos son inconsistentes ante cambios en las preguntas? Un estudio mide su estabilidad semántica y propone métricas para evaluarla.
Descubre AMNESIA, el primer benchmark masivo para evaluar desaprendizaje en LLMs médicos. ¿Cómo olvidar pacientes sin perder conocimiento clínico? Entra.
Descubre cómo el Sondeo Inverso mide la incertidumbre token a token en LLMs clínicos para mejorar la fiabilidad en diagnósticos y decisiones médicas.