Enrutamiento Sinkhorn Selectivo para Mezclas Dispersas de Expertos
Mejora el rendimiento de mezclas dispersas de expertos con enrutamiento Sinkhorn selectivo. Sin pérdidas auxiliares, mayor eficiencia y robustez.
Mejora el rendimiento de mezclas dispersas de expertos con enrutamiento Sinkhorn selectivo. Sin pérdidas auxiliares, mayor eficiencia y robustez.
Descubre PUMA: acelera 2.5x el entrenamiento de difusión enmascarada alineando máscaras. Optimización clave para IA.
Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.
Aprende sobre incTNP: el modelo que permite actualizaciones incrementales en procesos neuronales transformer, logrando eficiencia lineal y rendimiento comparable o superior.
Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.
Descubre cómo las representaciones gaussianas isotrópicas mejoran la estabilidad en aprendizaje por refuerzo profundo, reduciendo colapso de representación y neuronas inactivas.
GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.
Descubre cómo las cabezas de atención softmax se especializan en etapas durante el entrenamiento y el impacto de las funciones de activación en el rendimiento.
Descubre cómo medir la dificultad de problemas de forma dinámica para entrenar modelos de IA más eficientes con el método de problemas transicionales.
Descubre SpanNorm, la innovadora técnica que equilibra estabilidad y rendimiento en Transformers profundos, superando las limitaciones de PreNorm y PostNorm.
Descubre cómo usar modelos fundacionales de IA para predicción en bases de datos relacionales sin necesidad de entrenar ni ajustar. Con RDBLearn, resultados robustos de inmediato.
Acelera LLMs distribuidos hasta 1.57x con CUCo, marco agéntico que codiseña kernels CUDA automáticamente, con costos inferiores a $10.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
MAPL comprime activaciones en paralelismo de tubería con proyecciones ortogonales aprendidas, reduce comunicación sin pérdida de rendimiento en modelos LLaMA.
Descubre cómo una sola capa domina el ajuste fino ZO en LLMs, mejorando rendimiento y acelerando hasta 4.5x. Identifícala antes de entrenar.
Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.
Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!
Descubre cómo MolE-RAG mejora la predicción molecular mediante recuperación de literatura, contexto y estructuras similares, sin entrenamiento.
Descubre CausalLongPFN, un modelo preentrenado con datos sintéticos que predice resultados contrafactuales en secuencias temporales sin necesidad de reentrenamiento. Competitivo en benchmarks reales.
Cómo el fenómeno Grokking separa el ajuste de datos de la simplificación de representaciones con dos relojes de entrenamiento. Teoría de redes lineales y ReLU.