SpenseGPT: Poda práctica de una sola pasada con GEMMs dispersos y densos
Descubre SpenseGPT: poda one-shot que acelera la inferencia de LLMs hasta 1.2x en GPUs B200 con FP8, manteniendo la precisión. Formato híbrido 2:4 y denso.
Descubre SpenseGPT: poda one-shot que acelera la inferencia de LLMs hasta 1.2x en GPUs B200 con FP8, manteniendo la precisión. Formato híbrido 2:4 y denso.
Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.
Alpha Compute anuncia $79.2M en activos, $23M de ingresos anuales proyectados, cierra adquisición de GAMEE y lanza campaña 'Own Your Data' en CNBC.
KForge automatiza la generación de kernels para aceleradores IA mediante agentes LLM. Logra mejoras de hasta 5x en Intel Arc y 2% en NVIDIA B200. ¡Descubre más!