TWLA: Cuantización post-entrenamiento pesos ternarios y activaciones de bajo bit
Descubre cómo TWLA, mediante cuantización post-entrenamiento, reduce el tamaño y acelera la inferencia de LLMs usando pesos ternarios y activaciones de 4 bits.
Descubre cómo TWLA, mediante cuantización post-entrenamiento, reduce el tamaño y acelera la inferencia de LLMs usando pesos ternarios y activaciones de 4 bits.
TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.
La intervención en LLMs reduce la sicofancia pero también el acuerdo con verdades. ¿Se puede corregir sin perder precisión?
Descubre cómo ICALens usa ICA para encontrar direcciones interpretables en LLMs sin entrenar diccionarios, superando a los SAEs en eficiencia y sondas.
Estructuras lineales locales en pesos y activaciones son recuperables pero evolucionan rápido, desafiando direcciones de tarea fijas. Estudio con GPT-2 y LoRA.
Descubre INNSteer: control no lineal de LLMs con transformaciones latentes invertibles que mejora precisión y fluidez sin comprometer la inferencia.
INNSteer revoluciona el control de modelos de lenguaje al aplicar transformaciones invertibles en el espacio latente, logrando intervenciones no lineales adaptables a cada entrada.
Estudio revela cómo el contexto modifica geométricamente las representaciones de verdad en LLMs. Cambios direccionales y de magnitud separan verdad de falsedad.
Descubre TimpaTeks, una técnica automática para modificar texto en su lugar usando modelos de lenguaje difusivos. Reduce perplexidad y mantiene la estructura sin entrenamiento adicional.
PRISM decodifica las instrucciones activas en modelos de lenguaje. Un nuevo enfoque para monitorizar agentes de IA ante inyecciones y objetivos ocultos.
Descubrimos que el control de modelos de lenguaje depende de la interacción entre ángulo y norma. Explicamos por qué los métodos de steering difieren y proponem
Descubre cómo OffQ mitiga los outliers en activaciones para lograr una cuantización W4A4KV4 eficiente sin perder precisión en LLMs.
Aprende cómo la calibración por contexto y la entropía mejoran la detección de riesgos en agentes LLM frente a hackeos de recompensa.
Descubre cómo Concept-SAE controla conceptos específicos en modelos de IA, mejorando interpretabilidad y detección adversarial.
Optimiza LLM/VLM con compresión de bajo rango informada por activaciones y guiada por Pareto. Logra mayor eficiencia sin sacrificar precisión.
MAPL comprime activaciones en paralelismo de tubería con proyecciones ortogonales aprendidas, reduce comunicación sin pérdida de rendimiento en modelos LLaMA.
Aprende cómo las redes neuronales con activaciones suaves mitigan la maldición de la dimensionalidad, garantizando convergencia uniforme y robustez en regresión. ¡Entra!
¿Las activaciones de MLP mejoran el aprendizaje en contexto? Un estudio revela que no. Conoce los hallazgos y el futuro con autoencoders dispersos.
Descubre la relación asintótica entre capacidades de redes neuronales reales y complejas en espacios complejos usando la fórmula HCIZ.
STaR-Quant mejora la cuantificación de baja precisión en DLLMs, logrando 1.69x aceleración y 3.14x ahorro de memoria sobre FP16. Descubre cómo optimizar tu modelo.