MCJudgeBench: Un benchmark para la evaluación de jueces a nivel de restricciones en el seguimiento de instrucciones con múltiples restricciones.
<meta name=description content=MCJudgeBench: benchmark para evaluar jueces de instrucciones con restricciones. Mide precisión y robustez en tareas complejas de IA.>