#cuda

Más allá de pares de código: diálogos para traducción de LLM

Mejora la traducción de código con un pipeline que genera diálogos y traducciones verificadas usando dos LLM. Resultados sorprendentes en Fortran y CUDA.

2026-06-06 · 1 min

NVIDIA Dynamo Snapshot: arranque rápido para IA en Kubernetes

NVIDIA Dynamo Snapshot reduce el cold start de modelos de IA en Kubernetes hasta 21x. Checkpoint/restore con CRIU y CUDA para escalado elástico rápido.

2026-06-05 · 2 min

CuTeGen: Marco basado en LLM para kernels GPU de alto rendimiento

CuTeGen usa agentes de IA para generar y optimizar kernels GPU de alto rendimiento. Logra un 71% más de velocidad que PyTorch en pruebas estándar. ¡Descubre este framework innovador!

2026-06-05 · 2 min

CUCo: Marco agéntico para el codiseño de cómputo y comunicación

Acelera LLMs distribuidos hasta 1.57x con CUCo, marco agéntico que codiseña kernels CUDA automáticamente, con costos inferiores a $10.

2026-06-05 · 2 min

C-GSPN: Nuevo codificador de visión a escala fundacional

C-GSPN: codificador de visión que iguala a ViT con 15% menos parámetros, mejora segmentación +2.1% y ofrece 4x de aceleración. ¡Conócelo!

2026-06-02 · 3 min

HASTE: Entrenamiento Disperso Dinámico para Grandes Espacios de Salida

Con HASTE, el entrenamiento disperso dinámico consciente del hardware logra hasta 25x de aceleración en backpropagation para clasificación multi-etiqueta extrema.

2026-06-02 · 2 min

MiniMax M3: arquitectura MSA, contexto 1M y multimodalidad nativa

MiniMax lanza M3 con arquitectura MSA, contexto de 1M de tokens y multimodalidad nativa. Supera a GPT-5.5 en SWE-Bench Pro. API ya disponible.

2026-06-02 · 2 min

IA Física: Inferencia Batch-1 de LLMs - Memoria vs Ancho de Banda

Descubre el gap de inferencia en IA física: memoria limitada pero no ancho de banda. CUDA Graphs muestra un overhead oculto en GPUs rápidas como H100.

2026-06-01 · 2 min

CA-AC-MPC: Control Predictivo Basado en Modelo Actor-Crítico Acelerado por CUDA

CA-AC-MPC: control predictivo basado en actor-crítico acelerado por CUDA para optimización en tiempo real de sistemas de control.

2026-05-30 · 1 min