#benchmark alucinaciones

PhantomBench: Evaluando la amenaza inexistente de los LLM

PhantomBench revela tasas de alucinación en modelos de lenguaje de hasta 86.7% con conceptos inexistentes. Incluso modelos avanzados fallan.