Todas las bibliotecas de evaluación de LLM tienen el mismo error: jueces estocásticos usados como oráculos deterministas
<meta content=Descubre por qué usar jueces estocásticos como oráculos es un error común al evaluar modelos de lenguaje (LLM). Aprende a evitarlo.>