MP3: Preentrenamiento de patrones multi-período para predicción espacio-temporal
Descubre MP3, plugin de preentrenamiento para predicción espacio-temporal. Identifica espejismos temporales y mejora STGNNs. Reduce MAE 4.7% y RMSE 5%.
Descubre MP3, plugin de preentrenamiento para predicción espacio-temporal. Identifica espejismos temporales y mejora STGNNs. Reduce MAE 4.7% y RMSE 5%.
Descubre cómo la asignación específica de geometría de pesos (Stiefel en atención, DGram en MLP) mejora la optimización de transformers. Resultados con GPT-2.
La precisión del probing se satura pronto en LLM; la fragilidad revela la evolución oculta de representaciones. Descubre esta métrica complementaria.
Descubre cómo WebGraphMix selecciona datos de preentrenamiento usando centralidad de grafo web, mejorando el rendimiento de modelos de lenguaje sin necesidad de etiquetado.
Descubre cómo WebGraphMix selecciona datos de preentrenamiento para IA usando la centralidad de la web, mejorando rendimiento sin etiquetas. 🔥
¿Cuál es la mejor arquitectura subcuadrática? Analizamos xLSTM, Mamba-2 y Gated DeltaNet. xLSTM gana con su mecanismo de memoria flexible. Ideal para desarrolladores.
Sistema detecta palabras clave con vocabulario abierto, reduce almacenamiento 128x, reconoce términos especializados sin reentrenar, en idiomas no vistos.
Descubre cómo el uso de datos sintéticos mejora la clasificación de anomalías en ECG, especialmente con conjuntos de datos reales limitados.
Mejora la transferibilidad adversarial en modelos VLP con DeBias-Attack, que corrige el sesgo del modelo sustituto para ataques más efectivos.
GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs. Supera algoritmos descentralizados y compite con DiLoCo en eficiencia.
GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.
AdaGC mejora la estabilidad del preentrenamiento de modelos de lenguaje grandes (LLM) eliminando picos de pérdida y aumentando la precisión en hasta 2.48%.
Descubre: mezclar generadores sintéticos supera a seleccionar el mejor en preentrenamiento. La composición del corpus es clave.
Descubre cómo el sobreentrenamiento en SFT reduce la plasticidad del modelo y cómo el método Rejuvenation restaura la capacidad de aprendizaje por refuerzo para mejorar el rendimiento.
Auditamos benchmarks médicos de VLM y encontramos solapamiento de imágenes en SLAKE-En (19.8%) y señales de intercambiabilidad en Qwen2.5-VL. ¿Confías en tus modelos?
El aprendizaje contrastivo de grafos (GCL) puede ser efectivo sin muestras positivas. Descubre cómo SPGCL aprovecha la energía de Dirichlet para mejorar el aprendizaje. ¡Lee el artículo!
Descubre POET-X, el método que entrena LLMs de miles de millones de parámetros en una sola GPU H100 con menor memoria. ¡Optimiza tu entrenamiento!
Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.
El nuevo método SFF (Smoothed Full Fine-tuning) suaviza el paisaje de pérdida no convexo para optimizar el ajuste fino de grandes modelos de series temporales. ¡Descubre sus beneficios!
Aprende cómo LoTUS elimina la influencia de datos de entrenamiento en modelos pre-entrenados sin reentrenar. Mejora eficiencia y precisión a gran escala.