Estabilidad vs. Manipulabilidad: Robustez en Jueces de IA
¿Son confiables los jueces de IA? Este estudio revela que aunque estables, pueden revertirse con desafíos posteriores, afectando rankings y preferencias humanas.
¿Son confiables los jueces de IA? Este estudio revela que aunque estables, pueden revertirse con desafíos posteriores, afectando rankings y preferencias humanas.
Los jueces LLM son estables en reevaluaciones neutrales, pero vulnerables a retos dirigidos. El ERS mide su robustez interaccional. Conoce sus implicaciones.