El análogo de Grokking en el preentrenamiento de modelos de lenguaje
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.
Descubre cómo los algoritmos de cuantización adaptativa preservan el producto interno de vectores, ofreciendo precisión y velocidad hasta 10 veces mayor.
Descubre cómo equilibrar las tasas de aprendizaje entre capas en redes lineales mejora el rendimiento temprano. Resultados teóricos y experimentales.
Analizamos cómo la codificación de etiquetas (one-hot) afecta el colapso neuronal en redes, con foco en el sesgo del clasificador y la pérdida MSE.
Descubre cuánta ortogonalización necesita el optimizador Muon para entrenar redes neuronales de forma eficiente sin sacrificar precisión.
Descubre cómo las divergencias de Bregman distribuyen el error de aproximación espectral en optimizadores Kronecker y la propuesta de un optimizador adaptativo.
Descubre cómo FW-NKF combina filtros de Kalman con redes neuronales y ponderación de frecuencia para reducir errores de localización en robótica hasta un 10%.
L2R: primer marco de reducción dinámica de búsqueda para VRP generalizable. Escala a 10M nodos.
Descubre las limitaciones teóricas de la predicción de enlaces basada en embeddings y cómo las capas no lineales mejoran el rendimiento en grafos densos.
Descubre cómo Geodesic Flow Matching reduce un 72% el error en SLAM neuronal y mejora un 40% la eficiencia neural mediante representaciones de alta dimensión.
Nuevo método de aprendizaje multimodal predice propiedades de materiales bicapa apilados, acelerando el descubrimiento de nuevos materiales 2D.
Descubre DAG-MoE: agrega estructuralmente expertos para mejorar MoE sin costos adicionales.
Una investigación revela que los Transformers aprenden inferencia transitiva mediante una geometría ordinal emergente, replicando el efecto de distancia simbólica observado en humanos y animales.
Descubre cómo los modelos PINN con restricciones duras logran MAE de 0.27 kPa en consolidación radial con precarga combinada y zona alterada.
Descubre cómo Belief2-Attention mejora la atención en visión usando dos componentes para clasificación y segmentación.
Descubre SpikeWFM, una arquitectura híbrida SNN-ANN que mejora la predicción de canales inalámbricos al ser robusta al ruido y eficiente energéticamente.
LLMs y EEG comparten un eje de valencia. La saturación limita la supervisión. Descubre cómo un ensamble mejoró un 10.5% la precisión en FACED.
Descubre cómo las DNNs entrenadas equivalen al grupo de renormalización en datos de familia exponencial. Una nueva teoría de interpretabilidad.
Los transformers agentes aprenden a buscar en árboles mediante aprendizaje por refuerzo. Mecanismos de atención y generalización de profundidad.
STARFISH recupera hasta un 82% de precisión en redes podadas usando solo el 0.4% de imágenes. Supera en un 22% a otros métodos. Descubre cómo optimizar tus modelos.