Twin: ajuste de tasa de aprendizaje y decay sin validación
Twin ajusta LR y weight decay sin validación, logrando error absoluto medio del 1.28%. Ideal para datos escasos o imágenes médicas. ¡Optimiza!
Twin ajusta LR y weight decay sin validación, logrando error absoluto medio del 1.28%. Ideal para datos escasos o imágenes médicas. ¡Optimiza!
El aprendizaje no es solo minimizar la norma o la nitidez. Este estudio revela cómo la tasa de aprendizaje equilibra ambos sesgos implícitos. ¡Lee más!
Descubre cómo los modelos de difusión generalizan con representaciones equilibradas. Detecta memorización y edita sin entrenamiento.
Descubre cómo un nuevo objetivo de preentrenamiento que modela el tiempo y valor de eventos clínicos mejora los modelos fundacionales EHR, logrando representaci
Optimiza el transfer learning agrupando fuentes heterogéneas: Trans-GLMC mejora predicción de suicidio en hospitales.
Descubre cómo la mayoría de los interpoladores lineales tienen un rendimiento similar, y por qué algunos métodos superan al resto en inteligencia artificial.
Reformulación de operadores neuronales en d+1 para mejorar la evolución de embeddings. Menor error en benchmarks como calor y Rayleigh-Taylor.
Descubre cómo una dimensión auxiliar en operadores neuronales mejora precisión en benchmarks de dinámica, logrando menor error L2 y generalización zero-shot.
Descubre cómo las leyes de escalamiento en redes superficiales vinculan espectros de pesos y generalización, validando observaciones empíricas.
Descubre cómo las leyes de escalado en redes superficiales explican la generalización mediante el espectro de pesos. Validación teórica.
Descubre cómo los ciclos límite en políticas neuronales recurrentes explican su robustez y adaptación. Análisis desde sistemas dinámicos.
Descubre VarEOT: reformulación variacional del log-partición en EOT. Entrenamiento diferenciable sin MCMC, mejores resultados en traducción de imágenes.
Descubre cómo escapar eficientemente de puntos de silla en funciones no convexas con suavidad generalizada. Nuevos resultados de convergencia para métodos de primer orden.
Nuevo marco CorSW mejora la decodificación EEG con Wasserstein recortado en matrices de correlación, logrando generalización robusta a bajo costo.
Descubre FRAP, un método que combina experiencia de dominio y generalización para estimar el rendimiento de modelos sin etiquetas, incluso con cambios en la distribución de datos.
Agentes generalistas automatizan la curación de datos: nuevo benchmark Curation-Bench muestra que superan métodos publicados con 10% del presupuesto.
AutoMEM: sistema de memoria autogestionada para agentes LLM con mejor generalidad entre escenarios gracias al control activo de almacenamiento y recuperación.
Descubre cómo SoLoPO mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias de corto a largo, logrando mayor eficiencia y precisión.
Descubre cómo optimizar la distribución de probabilidad de máscara en modelos de difusión enmascarada mejora la generalización y el rendimiento en modelos de hasta 8B parámetros.
Analizamos la conexión entre la Ley de Robustez y la generalización robusta. ¿Cómo afecta el orden de las cotas de Lipschitz a la complejidad de Rademacher? Descúbrelo.