ReasonBENCH: La inestabilidad del razonamiento en LLMs ReasonBENCH revela: la inestabilidad en el razonamiento de LLMs no es ruido, es estructura. Un solo test puede engañar. ¡Evalúa con distribuciones! 2026-06-03 · 2 min