Atención Verificable Eficiente en Comunicación para Inferencia de LLM
Acelera la inferencia de LLM con VeriAttn: atención verificable y eficiente en comunicación, reduciendo carga TEE y mejorando rendimiento hasta 5.42x.
Acelera la inferencia de LLM con VeriAttn: atención verificable y eficiente en comunicación, reduciendo carga TEE y mejorando rendimiento hasta 5.42x.
Descubre VeriAttn, un método que acelera la inferencia de LLMs verificando la integridad del cómputo en GPU con TEE, reduciendo hasta 5x la sobrecarga.