Evaluación de generalización semántica en LLMs con construcciones frasales Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%. 2026-06-01 · 2 min