#ate · DeepCodeNews

El acierto hace la fuerza: alinear estados ocultos para RL

Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.

2026-06-03 · 2 min

Adaptando reglas de puntuación estrictamente adecuadas para inferencia causal

Personaliza reglas de puntuación para inferencia causal. Nuestra pérdida a medida reduce sesgo y varianza en estimación del ATE.

2026-06-03 · 2 min

Cuando los tokens de grafo se hunden: análisis mecanicista

Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.

2026-06-03 · 3 min

Modelado de lenguaje conforme mediante muestreo posterior

Descubre cómo el muestreo posterior calibrado reduce las alucinaciones en LLMs, mejorando coherencia y utilidad en generación de texto.

2026-06-03 · 2 min

Convoluciones cortas dinámicas mejoran los Transformers

Aprende cómo las convoluciones dinámicas mejoran los Transformers con ventajas en eficiencia. Implementación con kernels Triton.

2026-06-03 · 2 min

VaSE: Evicción de Caché KV Estocástica Consciente del Valor

Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.

2026-06-03 · 1 min

Precondicionador de dos mallas para flujo subterráneo con red híbrida de atención

Precondicionador de dos mallas y red híbrida de atención aceleran simulación de flujo subterráneo en medios de alto contraste, mejorando precisión.

2026-06-03 · 2 min

Diagnosticar latentes de alta dimensión con estructura de fase

Descubre cómo diagnosticar fases en espacios latentes mejora generación y detección de anomalías. Nuevo paradigma basado en vidrio de espín.

2026-06-03 · 2 min

Recuperación de la volatilidad acoplada al estado bajo observación parcial

Descubre cómo recuperar la volatilidad acoplada al estado en sistemas latentes con observación parcial usando filtros de partículas.

2026-06-03 · 2 min

Redes neuronales equivariantes de grupoides y álgebroides de Lie

Explora los fundamentos teóricos de las redes convolucionales equivariantes de Lie. Una nueva perspectiva para modelos invariantes a simetrías.

2026-06-03 · 2 min

Multi-Segment Attention: Cómo optimizar la caché KV para servidores LLM más rápidos

Descubre cómo AsymCache reduce el tiempo de respuesta de LLM hasta 2x mediante una gestión eficiente de la caché KV con Multi-Segment Attention.

2026-06-03 · 2 min

DriftSched: Programación adaptativa de QoS para inferencia GPU multiinquilino

DriftSched optimiza la programación GPU multi-inquilino con compensación adaptativa de deriva de tokens, reduciendo latencia un 42% y mejorando QoS.

2026-06-03 · 1 min

SketchSong: Generación jerárquica de canciones con bocetos y modelado fino

Aprende cómo SketchSong genera canciones coherentes usando planificación de bocetos y modelado fino multitrack. ¡Resultados competitivos!

2026-06-03 · 2 min

Modelo Isovist 3D: Revelando la geometría oculta de las ciudades

Modelo de mundo 3D Isovist predice espacio navegable y revela una firma transversal única entre ciudades. Aplicaciones en robótica e IA.

2026-06-03 · 2 min

Predicción explicable de avances científicos con redes de conceptos

Un modelo explicable predice avances científicos analizando redes de conceptos con precisión superior. Clave para estrategias de I+D basadas en datos abiertos.

2026-06-03 · 3 min

Generación de medidas rectificables con redes neuronales

Descubre cómo las redes neuronales ReLU aproximan medidas rectificables con error mínimo en distancia de Wasserstein, mejorando tasas según el parámetro m.

2026-06-03 · 2 min

ReciNet: Modelado de largo alcance en espacio recíproco para predicción de propiedades cristalinas

Descubre ReciNet, un modelo de IA que predice propiedades cristalinas usando el espacio recíproco con precisión superior en benchmarks de materiales.

2026-06-03 · 2 min

Similitud funcional con ensamblado consciente de invarianza

Descubre cómo la invarianza en el ensamblado de modelos revela discrepancias funcionales ocultas y mejora la evaluación de similitud en deep learning.

2026-06-03 · 2 min

TIDFormer: explotando dinámica temporal e interactiva en grafos dinámicos

Descubre cómo TIDFormer revoluciona el análisis de grafos dinámicos con su mecanismo de atención eficiente e interpretable, superando modelos previos.

2026-06-03 · 2 min

Predicción rápida y expresiva de múltiples bytes con circuitos probabilísticos

Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.

2026-06-03 · 2 min