Gran paso en GD restaura simetría en redes profundas con múltiples vías
Descubre cómo un gran paso en GD restaura simetría en redes profundas, evitando especialización en una vía y promoviendo representaciones compartidas.
Descubre cómo un gran paso en GD restaura simetría en redes profundas, evitando especialización en una vía y promoviendo representaciones compartidas.
Cómo el fenómeno Grokking separa el ajuste de datos de la simplificación de representaciones con dos relojes de entrenamiento. Teoría de redes lineales y ReLU.