Descifrando dos relojes de entrenamiento en Grokking Cómo el fenómeno Grokking separa el ajuste de datos de la simplificación de representaciones con dos relojes de entrenamiento. Teoría de redes lineales y ReLU. 2026-06-05 · 2 min