#multi-gpu

llama.cpp b9455 alcanza a vLLM: 70 t/s en 2x3090 con Qwen 27B

llama.cpp b9455 alcanza a vLLM: 70 t/s en 2x3090 con Qwen 27B

Descubre cómo llama.cpp b9455 iguala la velocidad de vLLM en 2x3090 con Qwen 27B. 70 t/s en decodificación y prefill ultrarrápido para agentes.

2026-06-03 · 3 min

APB-V: Acelerando comprensión de videos largos con atención paralela aproximada

APB-V: Acelerando comprensión de videos largos con atención paralela aproximada

Descubre APB-V: acelera la comprensión de videos largos en múltiples GPUs hasta 12.72x sin pérdida de rendimiento. Ideal para modelos multimodales.

2026-06-02 · 2 min

SUPREME: Framework Multi-GPU para Evaluación de Desaprendizaje de Imágenes

SUPREME: Framework Multi-GPU para Evaluación de Desaprendizaje de Imágenes

Descubre SUPREME, framework open-source que acelera evaluación de desaprendizaje en imágenes usando múltiples GPUs. Reproducible y eficiente.

2026-06-02 · 2 min