JANUS: Evaluando la distorsión informativa en modelos de lenguaje
Descubre JANUS, un benchmark que mide cómo los LLMs distorsionan hechos al omitir evidencia adversa o enfatizar detalles favorables. Resultados reveladores.
Descubre JANUS, un benchmark que mide cómo los LLMs distorsionan hechos al omitir evidencia adversa o enfatizar detalles favorables. Resultados reveladores.
Janus audita fallos en modelos de lenguaje: calibra con señuelos y replica en datos nuevos para confirmar solo los errores genuinos. Descubre el método.