Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento
Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.
Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.
Estudio revela que representaciones de pila en transformers son causalmente necesarias para lenguajes contadores. Evidencia empírica crucial.
Descubre cómo PrimeSVT automatiza la poda de Transformers de Visión Spiking, reduciendo memoria un 26.68% con mínima pérdida de precisión. Optimiza tus modelos.
Descubre cómo TRACE utiliza modelos autorregresivos para revelar el grafo causal a partir de secuencias de eventos, superando métodos tradicionales en escalabilidad y precisión.
Descubre cómo Self-Soupervision crea sopas de modelos sin etiquetas, mejorando robustez un +3.5% en ImageNet-C y +7% en LAION-C. ¡Optimiza tus modelos!
Descubre cómo las representaciones Laplacianas mejoran la planificación en tiempo de decisión en RL, descomponiendo problemas complejos en subobjetivos. El algo
Acelera el entrenamiento de modelos generativos de grafos relajando la equivarianza. Aprende cómo la modulación de simetría reduce el sobreajuste y alcanza mejo
Las RNN lineales ofrecen un equilibrio óptimo entre paralelización y expresividad. Descubre por qué superan a las RNN no lineales en eficiencia y su impacto en modelos de lenguaje avanzados.
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.
Aprende cómo un algoritmo SBL estima núcleos de interacción en el modelo Motsch-Tadmor, cuantificando incertidumbre a partir de datos de trayectoria.
Descubre cómo los transformers aprenden en contexto sin entrenamiento: la dinámica implícita que modifica pesos MLP durante la inferencia.
Explora scLDM: un modelo de difusión latente que genera expresión génica unicelular escalable con atención cruzada. Ideal para clasificación celular.
Nuevo método de kernel online para estimar efectos causales bidireccionales con alta precisión y escalabilidad. Ideal para datos masivos en ciencia, negocios y políticas.
Nuevo marco Cartesiano-3j logra precisión comparable a modelos esféricos en potenciales interatómicos. Descubre cómo.
Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.
Descubre cómo NAtS-L optimiza transformers combinando atención lineal y softmax por token, reduciendo coste sin perder expresividad en contextos largos.
Campos neuronales para predicción física y aprendizaje offline. Una arquitectura isomórfica que mejora políticas sin interacción con el entorno.
El recocido con semilla Rashomon optimiza la inferencia bayesiana en diseños factoriales, superando multimodalidad y combinando evidencia con incertidumbre.
Descubre cómo los modelos de machine learning causal superan a la regresión tradicional para medir el impacto de mejoras ambientales en el precio de viviendas, según simulación Monte Carlo.