#reentrenamiento

MP3: Preentrenamiento de patrones multi-período para predicción espacio-temporal

Descubre MP3, plugin de preentrenamiento para predicción espacio-temporal. Identifica espejismos temporales y mejora STGNNs. Reduce MAE 4.7% y RMSE 5%.

2026-06-12 · 2 min

Diferentes capas, diferentes variedades: geometría del espacio de pesos en transformers

Descubre cómo la asignación específica de geometría de pesos (Stiefel en atención, DGram en MLP) mejora la optimización de transformers. Resultados con GPT-2.

2026-06-12 · 2 min

Probing satura, fragilidad resuelve: nueva métrica para LLM

La precisión del probing se satura pronto en LLM; la fragilidad revela la evolución oculta de representaciones. Descubre esta métrica complementaria.

2026-06-11 · 2 min

Centros o periferias: selección de datos vía centralidad de grafo web

Descubre cómo WebGraphMix selecciona datos de preentrenamiento usando centralidad de grafo web, mejorando el rendimiento de modelos de lenguaje sin necesidad de etiquetado.

2026-06-11 · 2 min

Hubs o Fringes: Selección de datos de preentrenamiento con centralidad de grafos web

Descubre cómo WebGraphMix selecciona datos de preentrenamiento para IA usando la centralidad de la web, mejorando rendimiento sin etiquetas. 🔥

2026-06-11 · 2 min

Arquitecturas subcuadráticas: de las aplicaciones a los principios

¿Cuál es la mejor arquitectura subcuadrática? Analizamos xLSTM, Mamba-2 y Gated DeltaNet. xLSTM gana con su mecanismo de memoria flexible. Ideal para desarrolladores.

2026-06-11 · 2 min

Detección masiva de palabras clave con vocabulario abierto

Sistema detecta palabras clave con vocabulario abierto, reduce almacenamiento 128x, reconoce términos especializados sin reentrenar, en idiomas no vistos.

2026-06-11 · 2 min

Mejora la clasificación de ECG con datos sintéticos y preentrenamiento

Descubre cómo el uso de datos sintéticos mejora la clasificación de anomalías en ECG, especialmente con conjuntos de datos reales limitados.

2026-06-10 · 2 min

Corrección de sesgo para mejorar transferibilidad adversarial en VLP

Mejora la transferibilidad adversarial en modelos VLP con DeBias-Attack, que corrige el sesgo del modelo sustituto para ataques más efectivos.

2026-06-10 · 2 min

Unificar comunicaciones y actualizaciones locales en preentrenamiento de LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs. Supera algoritmos descentralizados y compite con DiLoCo en eficiencia.

2026-06-10 · 2 min

GASLoC: unificando comunicaciones y actualizaciones locales para LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.

2026-06-10 · 3 min

AdaGC: Mejora la estabilidad del preentrenamiento con recorte adaptativo

AdaGC mejora la estabilidad del preentrenamiento de modelos de lenguaje grandes (LLM) eliminando picos de pérdida y aumentando la precisión en hasta 2.48%.

2026-06-10 · 2 min

Mezcla, no elijas: composición de corpus sintético para series temporales

Descubre: mezclar generadores sintéticos supera a seleccionar el mejor en preentrenamiento. La composición del corpus es clave.

2026-06-10 · 2 min

Cuando RL falla tras SFT: rejuveneciendo la plasticidad del modelo

Descubre cómo el sobreentrenamiento en SFT reduce la plasticidad del modelo y cómo el método Rejuvenation restaura la capacidad de aprendizaje por refuerzo para mejorar el rendimiento.

2026-06-10 · 1 min

Contaminación de preentrenamiento en benchmarks médicos de visión-lenguaje

Auditamos benchmarks médicos de VLM y encontramos solapamiento de imágenes en SLAKE-En (19.8%) y señales de intercambiabilidad en Qwen2.5-VL. ¿Confías en tus modelos?

2026-06-10 · 2 min

Revisando muestras positivas en aprendizaje contrastivo de grafos

El aprendizaje contrastivo de grafos (GCL) puede ser efectivo sin muestras positivas. Descubre cómo SPGCL aprovecha la energía de Dirichlet para mejorar el aprendizaje. ¡Lee el artículo!

2026-06-10 · 3 min

POET-X: Entrenamiento eficiente de LLMs con transformaciones ortogonales

Descubre POET-X, el método que entrena LLMs de miles de millones de parámetros en una sola GPU H100 con menor memoria. ¡Optimiza tu entrenamiento!

2026-06-09 · 1 min

Muon²: Potenciando Muon con precondicionamiento adaptativo de segundo momento

Muon² reduce un 40% las iteraciones Newton-Schulz y ahorra hasta 25% del tiempo de entrenamiento. Descubre cómo.

2026-06-09 · 1 min

Ajuste fino de grandes modelos de series temporales: superando el paisaje no convexo

El nuevo método SFF (Smoothed Full Fine-tuning) suaviza el paisaje de pérdida no convexo para optimizar el ajuste fino de grandes modelos de series temporales. ¡Descubre sus beneficios!

2026-06-09 · 2 min

LoTUS: Desaprendizaje automático a gran escala con incertidumbre

Aprende cómo LoTUS elimina la influencia de datos de entrenamiento en modelos pre-entrenados sin reentrenar. Mejora eficiencia y precisión a gran escala.

2026-06-09 · 2 min