100-LongBench: ¿Los benchmarks de contexto largo evalúan realmente la capacidad? Descubre por qué los benchmarks actuales como LongBench no miden correctamente la capacidad de contexto largo de los LLMs y cómo una nueva métrica lo soluciona. 2026-06-04 · 2 min