#modelo

Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento

Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.

2026-06-03 · 2 min

Evidencia causal de representaciones de pila en modelos de contadores con transformers

Estudio revela que representaciones de pila en transformers son causalmente necesarias para lenguajes contadores. Evidencia empírica crucial.

2026-06-03 · 1 min

PrimeSVT: Poda Automática con Memoria para Transformers de Visión Spiking

Descubre cómo PrimeSVT automatiza la poda de Transformers de Visión Spiking, reduciendo memoria un 26.68% con mínima pérdida de precisión. Optimiza tus modelos.

2026-06-03 · 2 min

Tu modelo autorregresivo ya revela el grafo causal

Descubre cómo TRACE utiliza modelos autorregresivos para revelar el grafo causal a partir de secuencias de eventos, superando métodos tradicionales en escalabilidad y precisión.

2026-06-03 · 2 min

Self-Soupervision: Cocinar sopas de modelos sin etiquetas

Descubre cómo Self-Soupervision crea sopas de modelos sin etiquetas, mejorando robustez un +3.5% en ImageNet-C y +7% en LAION-C. ¡Optimiza tus modelos!

2026-06-03 · 2 min

Representaciones Laplacianas para Planificación en Tiempo de Decisión

Descubre cómo las representaciones Laplacianas mejoran la planificación en tiempo de decisión en RL, descomponiendo problemas complejos en subobjetivos. El algo

2026-06-03 · 2 min

Equilibrio entre simetría y eficiencia en modelos de flujo de grafos

Acelera el entrenamiento de modelos generativos de grafos relajando la equivarianza. Aprende cómo la modulación de simetría reduce el sobreajuste y alcanza mejo

2026-06-03 · 2 min

¿Por qué las RNN lineales son más paralelizables?

Las RNN lineales ofrecen un equilibrio óptimo entre paralelización y expresividad. Descubre por qué superan a las RNN no lineales en eficiencia y su impacto en modelos de lenguaje avanzados.

2026-06-03 · 2 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

Inicializaciones de ataques jailbreak como extractores de cumplimiento

Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.

2026-06-03 · 2 min

Aprendizaje bayesiano disperso para núcleos de interacción Motsch-Tadmor

Aprende cómo un algoritmo SBL estima núcleos de interacción en el modelo Motsch-Tadmor, cuantificando incertidumbre a partir de datos de trayectoria.

2026-06-03 · 3 min

Aprendizaje sin entrenamiento: Dinámica implícita del aprendizaje en contexto

Descubre cómo los transformers aprenden en contexto sin entrenamiento: la dinámica implícita que modifica pesos MLP durante la inferencia.

2026-06-03 · 2 min

Generación escalable de expresión génica unicelular con difusión latente

Explora scLDM: un modelo de difusión latente que genera expresión génica unicelular escalable con atención cruzada. Ideal para clasificación celular.

2026-06-03 · 2 min

Estimación bidireccional de efectos causales con kernel online

Nuevo método de kernel online para estimar efectos causales bidireccionales con alta precisión y escalabilidad. Ideal para datos masivos en ciencia, negocios y políticas.

2026-06-03 · 2 min

Un marco Cartesiano-3j para potenciales interatómicos de aprendizaje automático

Nuevo marco Cartesiano-3j logra precisión comparable a modelos esféricos en potenciales interatómicos. Descubre cómo.

2026-06-03 · 2 min

Social Caption: Evaluación de la comprensión social en modelos multimodales

Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.

2026-06-03 · 2 min

NAtS-L: Búsqueda de Atención Neuronal para Modelos Híbridos por Token

Descubre cómo NAtS-L optimiza transformers combinando atención lineal y softmax por token, reduciendo coste sin perder expresividad en contextos largos.

2026-06-03 · 2 min

Campos Neuronales como Modelos del Mundo

Campos neuronales para predicción física y aprendizaje offline. Una arquitectura isomórfica que mejora políticas sin interacción con el entorno.

2026-06-03 · 3 min

Recocido con semilla Rashomon: inferencia bayesiana robusta

El recocido con semilla Rashomon optimiza la inferencia bayesiana en diseños factoriales, superando multimodalidad y combinando evidencia con incertidumbre.

2026-06-03 · 2 min

Machine learning causal para efectos ambientales en viviendas

Descubre cómo los modelos de machine learning causal superan a la regresión tradicional para medir el impacto de mejoras ambientales en el precio de viviendas, según simulación Monte Carlo.

2026-06-03 · 3 min