PhantomBench: Evaluando la amenaza inexistente de los LLM
PhantomBench revela tasas de alucinación en modelos de lenguaje de hasta 86.7% con conceptos inexistentes. Incluso modelos avanzados fallan.
PhantomBench revela tasas de alucinación en modelos de lenguaje de hasta 86.7% con conceptos inexistentes. Incluso modelos avanzados fallan.