#neuronales

El análogo de Grokking en el preentrenamiento de modelos de lenguaje

Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.

2026-06-02 · 3 min

Cuantización Consciente del Producto Interno: Algoritmos Rápidos y Adaptativos

Descubre cómo los algoritmos de cuantización adaptativa preservan el producto interno de vectores, ofreciendo precisión y velocidad hasta 10 veces mayor.

2026-06-02 · 1 min

Cómo equilibrar tasas de aprendizaje entre capas en redes neuronales lineales

Descubre cómo equilibrar las tasas de aprendizaje entre capas en redes lineales mejora el rendimiento temprano. Resultados teóricos y experimentales.

2026-06-02 · 2 min

El rol de la codificación de clases en el colapso neuronal

Analizamos cómo la codificación de etiquetas (one-hot) afecta el colapso neuronal en redes, con foco en el sesgo del clasificador y la pérdida MSE.

2026-06-02 · 2 min

¿Cuánta ortogonalización necesita Muon?

Descubre cuánta ortogonalización necesita el optimizador Muon para entrenar redes neuronales de forma eficiente sin sacrificar precisión.

2026-06-02 · 2 min

Repensando las divergencias de Bregman en optimizadores Kronecker

Descubre cómo las divergencias de Bregman distribuyen el error de aproximación espectral en optimizadores Kronecker y la propuesta de un optimizador adaptativo.

2026-06-02 · 1 min

FW-NKF: Filtro de Kalman Neuronal Ponderado por Frecuencia

Descubre cómo FW-NKF combina filtros de Kalman con redes neuronales y ponderación de frecuencia para reducir errores de localización en robótica hasta un 10%.

2026-06-02 · 2 min

Aprendizaje para Reducir el Espacio de Búsqueda en Enrutamiento

L2R: primer marco de reducción dinámica de búsqueda para VRP generalizable. Escala a 10M nodos.

2026-06-02 · 2 min

Limitaciones teóricas de la predicción de enlaces basada en embeddings

Descubre las limitaciones teóricas de la predicción de enlaces basada en embeddings y cómo las capas no lineales mejoran el rendimiento en grafos densos.

2026-06-02 · 3 min

Geodesic Flow Matching para denoising de representaciones de alta dimensión

Descubre cómo Geodesic Flow Matching reduce un 72% el error en SLAM neuronal y mejora un 40% la eficiencia neural mediante representaciones de alta dimensión.

2026-06-02 · 3 min

Predicción de propiedades de materiales bicapa apilados

Nuevo método de aprendizaje multimodal predice propiedades de materiales bicapa apilados, acelerando el descubrimiento de nuevos materiales 2D.

2026-06-02 · 2 min

DAG-MoE: De la Mezcla Simple a la Agregación Estructural en MoE

Descubre DAG-MoE: agrega estructuralmente expertos para mejorar MoE sin costos adicionales.

2026-06-02 · 1 min

Geometría ordinal emergente en Transformers entrenados con comparaciones locales

Una investigación revela que los Transformers aprenden inferencia transitiva mediante una geometría ordinal emergente, replicando el efecto de distancia simbólica observado en humanos y animales.

2026-06-02 · 2 min

PINN para consolidación radial con precarga combinada y zona alterada

Descubre cómo los modelos PINN con restricciones duras logran MAE de 0.27 kPa en consolidación radial con precarga combinada y zona alterada.

2026-06-02 · 2 min

Belief2-Attention: mejora en tareas de visión

Descubre cómo Belief2-Attention mejora la atención en visión usando dos componentes para clasificación y segmentación.

2026-06-02 · 2 min

SpikeWFM: Modelo Inalámbrico de Fundación para Predicción Robusta

Descubre SpikeWFM, una arquitectura híbrida SNN-ANN que mejora la predicción de canales inalámbricos al ser robusta al ruido y eficiente energéticamente.

2026-06-02 · 2 min

Valencia compartida en LLMs y EEG humano: regularidad de saturación

LLMs y EEG comparten un eje de valencia. La saturación limita la supervisión. Descubre cómo un ensamble mejoró un 10.5% la precisión en FACED.

2026-06-02 · 2 min

Interpretación de DNNs mediante grupo de renormalización y familia exponencial

Descubre cómo las DNNs entrenadas equivalen al grupo de renormalización en datos de familia exponencial. Una nueva teoría de interpretabilidad.

2026-06-02 · 1 min

Transformers agentes aprenden a buscar con RL

Los transformers agentes aprenden a buscar en árboles mediante aprendizaje por refuerzo. Mecanismos de atención y generalización de profundidad.

2026-06-02 · 2 min

STARFISH: Recuperación rápida de precisión en redes podadas

STARFISH recupera hasta un 82% de precisión en redes podadas usando solo el 0.4% de imágenes. Supera en un 22% a otros métodos. Descubre cómo optimizar tus modelos.

2026-06-02 · 2 min