Atención Top-Theta: Adelgazamiento de Transformers con Umbralización Compensada
Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP.
Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP.
Descubre SPARC: compresión de imágenes que asigna bitrate según relevancia, mejorando el control robótico con modelos VLA.
ATN3D: nuevo framework LiDAR-Radar para detección 3D temprana. Mejora en +3.55% mAP en claras y +8.41% en niebla.
Analizamos la estructura de actualizaciones en OPD: son pequeñas, dispersas y aprovechan subredes, revelando claves para optimización post-training.