Estructura y escala en el modelado de secuencias simpliciales
Descubre cómo la escala en modelos de secuencias simpliciales se correlaciona con estructura y rendimiento en transformers. Un estudio revela patrones predecibles.
Descubre cómo la escala en modelos de secuencias simpliciales se correlaciona con estructura y rendimiento en transformers. Un estudio revela patrones predecibles.
Descubre DAGGER, el nuevo algoritmo sin gradiente que construye redes amplificadoras transitorias preservando conectividad exacta. Hasta 100x más rápido.
GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.
GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.
Aprende cómo agentes de IA logran acceso eficiente al canal inalámbrico con el método KISS.
Descubre cómo las simetrías ocultas permiten localizar e identificar intrusos con precisión. Un avance revolucionario en sensado usando inteligencia artificial.
Descubre cómo un nuevo método de abstracción basado en grafos dirigidos y GNN optimiza la búsqueda en problemas de optimización combinatoria no lineal, mejorando resultados y robustez.
Descubre cómo una red con atención multi-cabeza alcanza R² 0.84 en predicción de reflectancia foliar, supera modelos clásicos. Ideal para monitoreo de viñedos.
Descubre cómo UCD calibra la incertidumbre en modelos de difusión para generar moléculas 3D más fiables y precisas, mejorando la validez química.
FilterMoE revoluciona las GNNs de prepropagación al enrutar filtros por nodos y canales, superando a métodos previos en 9 de 11 benchmarks. ¡Mejora precisión y escalabilidad!
Descubre el marco teórico para algoritmos de auto-play que logran crecimiento exponencial de teoremas probados, con mejora de diversidad usando similitud de difusión.
Stefan-CL aplica la física de fusión para resolver el dilema estabilidad-plasticidad, reduciendo el olvido casi a cero sin almacenar datos. Descúbrelo.
Descubre cómo el algoritmo semi-relajado de Gromov-Wasserstein permite estimar la estructura latente de redes masivas de forma eficiente, con garantías de consistencia y convergencia óptima.
Un preprocesador simple combina ruido gaussiano y filtro bilateral para lograr robustez adversarial supralineal en CNNs con bajo costo computacional.
TabPrep cierra la brecha de ingeniería de rasgos en benchmarks tabulares, mejorando el rendimiento de modelos de IA de forma eficiente.
La restricción semi-ortogonal en capas de congruencia limita la expresividad de DNNs para matrices PD. Comparativa de clasificadores Riemannianos.
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.
Descubre cómo los algoritmos de cuantización adaptativa preservan el producto interno de vectores, ofreciendo precisión y velocidad hasta 10 veces mayor.
Descubre cómo equilibrar las tasas de aprendizaje entre capas en redes lineales mejora el rendimiento temprano. Resultados teóricos y experimentales.
Analizamos cómo la codificación de etiquetas (one-hot) afecta el colapso neuronal en redes, con foco en el sesgo del clasificador y la pérdida MSE.