El acierto hace la fuerza: alinear estados ocultos para RL
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Personaliza reglas de puntuación para inferencia causal. Nuestra pérdida a medida reduce sesgo y varianza en estimación del ATE.
Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.
Descubre cómo el muestreo posterior calibrado reduce las alucinaciones en LLMs, mejorando coherencia y utilidad en generación de texto.
Aprende cómo las convoluciones dinámicas mejoran los Transformers con ventajas en eficiencia. Implementación con kernels Triton.
Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.
Precondicionador de dos mallas y red híbrida de atención aceleran simulación de flujo subterráneo en medios de alto contraste, mejorando precisión.
Descubre cómo diagnosticar fases en espacios latentes mejora generación y detección de anomalías. Nuevo paradigma basado en vidrio de espín.
Descubre cómo recuperar la volatilidad acoplada al estado en sistemas latentes con observación parcial usando filtros de partículas.
Explora los fundamentos teóricos de las redes convolucionales equivariantes de Lie. Una nueva perspectiva para modelos invariantes a simetrías.
Descubre cómo AsymCache reduce el tiempo de respuesta de LLM hasta 2x mediante una gestión eficiente de la caché KV con Multi-Segment Attention.
DriftSched optimiza la programación GPU multi-inquilino con compensación adaptativa de deriva de tokens, reduciendo latencia un 42% y mejorando QoS.
Aprende cómo SketchSong genera canciones coherentes usando planificación de bocetos y modelado fino multitrack. ¡Resultados competitivos!
Modelo de mundo 3D Isovist predice espacio navegable y revela una firma transversal única entre ciudades. Aplicaciones en robótica e IA.
Un modelo explicable predice avances científicos analizando redes de conceptos con precisión superior. Clave para estrategias de I+D basadas en datos abiertos.
Descubre cómo las redes neuronales ReLU aproximan medidas rectificables con error mínimo en distancia de Wasserstein, mejorando tasas según el parámetro m.
Descubre ReciNet, un modelo de IA que predice propiedades cristalinas usando el espacio recíproco con precisión superior en benchmarks de materiales.
Descubre cómo la invarianza en el ensamblado de modelos revela discrepancias funcionales ocultas y mejora la evaluación de similitud en deep learning.
Descubre cómo TIDFormer revoluciona el análisis de grafos dinámicos con su mecanismo de atención eficiente e interpretable, superando modelos previos.
Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.