dLLM-Cache: Caché Adaptativa para Modelos de Lenguaje con Difusión
dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.
dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.
Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!
Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.
Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.
El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.
Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.
Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.
QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.
FiRe-OPD mejora la destilación on-policy con filtrado de trayectorias y repesado suave de tokens. Obtén +6.25 en AIME 2024 y +18.81 en Miner ¡Optimiza tus LLMs!
Descubre el primer LLM nativo en bytes que analiza malware directamente desde código compilado, con hasta 98% de precisión en clasificación de arquitecturas.
Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.
App personalizada reemplaza hojas de cálculo, centraliza datos y se adapta a startups y grandes empresas. ¡Optimiza tu flujo de trabajo!
UniScale unifica ruteo de modelos y escalado en prueba para optimizar calidad-coste en LLMs. Aprende cómo se adapta dinámicamente a cada solicitud.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.
Optimiza el ajuste fino de modelos grandes con adaptadores Kronecker. Conoce CDKA, una nueva técnica que mejora la capacidad y eficiencia mediante el diseño estratégico de componentes.
FlexRank extrae submodelos de capacidad variable de modelos sin reentrenar. Optimiza costos y rendimiento para despliegue adaptativo a todo presupuesto.
Descubre cómo L2G-Net revoluciona las GNN espectrales con factorizaciones de Cauchy, escalando a grafos grandes con pocos parámetros.
Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.
Descubre cómo el auto-bloqueo de información afecta el razonamiento activo de agentes LLM y cómo el método AREW lo mitiga, logrando mejoras de hasta 60 puntos.