#memoria

GRZO: Optimización de orden cero para ajuste fino de LLMs

Descubre GRZO, el optimizador que reduce la varianza en el ajuste fino de LLMs, mejorando precisión y ahorrando memoria GPU.

2026-06-03 · 3 min

PhotoCraft: Razonamiento Agentivo con Memoria Jerárquica para Búsqueda Visual

Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.

2026-06-03 · 2 min

PSViT: Metodología de poda estructural para Spiking Vision Transformers

Aprende cómo PSViT comprime SViT con poda estructural: 22% menos memoria y alta precisión.

2026-06-03 · 3 min

No seas tan Stief: optimización de KV Cache en la variedad de Stiefel

Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.

2026-06-03 · 2 min

SALAAD: Adaptación dispersa y de bajo rango con ADMM para inferencia de LLM

Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.

2026-06-03 · 3 min

Compresión extremo a extremo para modelos tabulares

Descubre cómo TACO comprime datasets tabulares en espacio latente, logrando hasta 94x más rapidez y 97% menos memoria sin perder rendimiento.

2026-06-03 · 2 min

Arrepentimiento dinámico sin parámetros: costos de movimiento variables

Aprende sobre nuevo algoritmo que logra arrepentimiento dinámico adaptativo sin parámetros para optimización convexa online con costos de movimiento variables.

2026-06-03 · 3 min

Backpropagación Estructurada Eficiente en Memoria para Ajuste Fino de LLM

Descubre MeSP: reduce un 49% la memoria al ajustar LLMs en dispositivos, con gradientes exactos. Ideal para entrenamiento privado.

2026-06-03 · 2 min

HiPPO Zoo: Memoria Explícita para Modelos de Estado Interpretables

Descubre cómo las extensiones del framework HiPPO ofrecen memoria adaptativa y asociativa en modelos de espacio de estado, manteniendo la interpretabilidad. Un

2026-06-03 · 2 min

Más allá de la memoria en tiempo de test: control óptimo para LLM

Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación

2026-06-03 · 2 min

GradMem: Contexto en Memoria con Descenso de Gradiente en Tiempo de Prueba

Optimiza LLMs con GradMem: escribe contexto en memoria mediante descenso de gradiente en tiempo de prueba, reduciendo la necesidad de grandes cachés.

2026-06-03 · 2 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

Memoria Rashomon: Recuperación Multi-Perspectiva con Argumentación

Descubre Rashomon Memory: una arquitectura que permite a agentes de IA manejar interpretaciones conflictivas mediante argumentación. Recuperación multi-perspectiva.

2026-06-03 · 3 min

c-TPE: Estimador Parzen con restricciones para hiperparámetros

Aprende cómo c-TPE optimiza hiperparámetros bajo restricciones de memoria y latencia, superando métodos tradicionales en problemas costosos.

2026-06-03 · 2 min

¿Tu cerebro tiene un botón de pegar?

Descubre por qué pegar contexto manualmente en tu asistente de IA es un síntoma de un problema mayor: la falta de ingestión automática de memorias. Cómo la extr

2026-06-03 · 1 min

Paralelismo de Modelos con Subredes de Datos

Descubre cómo el Subnetwork Data Parallelism reduce el uso de memoria en un 28-60% al entrenar modelos de IA, manteniendo el rendimiento. ¡Optimiza tu entrenamiento distribuido!

2026-06-02 · 2 min

Corteza y subcorteza: roles distintos en el aprendizaje con memoria limitada

Descubre cómo la corteza y subcorteza trabajan juntas para optimizar el aprendizaje con memoria limitada. Una nueva teoría explica sus roles distintos.

2026-06-02 · 2 min

No leas todo: Consulta condicionada por curvatura para atención lineal

Mejora la recuperación en contexto y la extrapolación de longitud en atención lineal usando una consulta condicionada por curvatura (CCQ), con bajo costo adicional.

2026-06-02 · 2 min

Sparse FEONet: Red eficiente de operadores con elementos finitos

Conoce Sparse FEONet, la red de operadores dispersa que reduce costos computacionales y memoria para PDEs paramétricas.

2026-06-02 · 2 min

ForesightKV: Evicción óptima de caché KV en modelos de razonamiento

ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.

2026-06-02 · 2 min