Errorquake: Distribuciones de severidad de errores en LLMs abiertos El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA. 2026-06-05 · 2 min