# Cómo ejecutar Qwen3.6-35B en tu Mac a 77 tok/s

La llegada de hardware con memoria unificada, como los Mac con chip Apple Silicon, ha abierto una puerta que antes parecía reservada a centros de datos o estaciones con costosas GPUs: ejecutar modelos de lenguaje de gran tamaño de forma local, a velocidades que hace unos años eran impensables. Modelos como el Qwen3.6-35B, que en su versión completa requieren más de 70 GB de VRAM, pueden ahora funcionar en un ordenador portátil con 48 GB de RAM compartida gracias a técnicas de cuantización a 4 bits y frameworks optimizados como MLX. Esto no solo democratiza el acceso a la inteligencia artificial avanzada, sino que permite a equipos de desarrollo mantener el control total sobre sus datos y flujos de trabajo, sin depender de APIs externas.

Para una empresa, tener un servidor local de inferencia compatible con la API de OpenAI significa poder integrar modelos potentes directamente en sus aplicaciones a medida o en flujos de automatización interna. La latencia se reduce drásticamente, la privacidad de la información se garantiza al no enviar datos a la nube, y se eliminan los costes recurrentes por token. Además, esta capacidad es el cimiento perfecto para construir agentes IA que interactúen con bases de conocimiento propias, asistan en tareas de ciberseguridad analizando logs sin exponerlos, o enriquezcan paneles de inteligencia de negocio y Power BI con resúmenes generativos.

Desde Q2BSTUDIO entendemos que la adopción de ia para empresas no se limita a instalar un modelo: implica diseñar la arquitectura, optimizar el rendimiento según el hardware disponible, y conectar el motor de lenguaje con los sistemas legacy. Por eso ofrecemos servicios que van desde la implantación de servicios cloud aws y azure para escalar cuando sea necesario, hasta el desarrollo de software a medida que integre estos modelos locales con los procesos de negocio de cada cliente. Nuestro equipo ha trabajado en proyectos donde se combinan modelos cuantizados con pipelines de RAG, agentes autónomos y análisis en tiempo real, siempre con un enfoque práctico y orientado a resultados.

El ejemplo concreto de Qwen3.6-35B sobre MLX ilustra cómo la tecnología actual permite a cualquier organización montar su propio asistente inteligente con rendimientos cercanos a los 80 tokens por segundo, manejando ventanas de contexto de más de 65 mil tokens. Esto abre posibilidades reales para tareas de análisis de documentos extensos, creación de contenido asistida, o incluso sistemas de soporte técnico internos. Si tu empresa está explorando cómo llevar la inteligencia artificial a su operativa diaria, te invitamos a conocer nuestras soluciones de IA para empresas y descubrir cómo podemos ayudarte a convertir esta capacidad técnica en una ventaja competitiva sostenible.

Compartir

Comentarios