LLMs locales: estado del arte
Con la explosión de modelos LLM locales, muchos se preguntan cuál es el mejor modelo que podemos ejecutar en local y cómo se compara con los proveedores de inferencia en la nube en su capa gratuita. Aquí resumo mi experiencia práctica orientada a un caso muy concreto: agentes para programación, concretamente KiloCode.
Objetivos y hardware: mi objetivo principal es el desarrollo de agentes IA que escriban y depuren código de forma precisa. Esto difiere de tareas creativas como escritura o roleplay donde se busca que el modelo sea imaginativo; para agentes de código, cuanto menos 'creatividad' y más cumplimiento estricto de instrucciones, mejor. Mi equipo consta de 64 GB de RAM y dos GPUs AMD RX6800 con 16 GB VRAM cada una, es decir 32 GB VRAM en total. Aunque no son las GPUs Nvidia más rápidas, permiten alojar modelos relativamente grandes y esa capacidad de VRAM marca una diferencia real.
Modelos evaluados y experiencia: empecé con Qwen3-Coder-30B-A3B-Instruct. Fue una elección lógica por ser reciente y orientado a código, pero resultó lento con prompts grandes. Un primer input de 10k tokens tardaba cerca de un minuto en procesarse; el cache ayuda, pero cambiar de modelo o reiniciar obliga a esperar de nuevo y la latencia crece con el contexto almacenado. Además, la gestión de herramientas no era fiable y pasé más tiempo peleando con el modelo que aprovechándolo.
Probé luego Qwen3-30B-A3B-Instruct-2507, similar en velocidad pero algo mejor usando herramientas y útil para generar esqueletos de proyectos. Sin embargo fallaba en depurar errores simples: ante un null pointer evidente, el modelo no lo resolvía y en ocasiones empeoraba el código intentando arreglos equivocados.
Tras ello ejecuté gpt-oss-120b que, con la experiencia adquirida, logré correr y fue muy rápido en comparación. No obstante presenta comportamiento errático al usar herramientas y a menudo añade soluciones parche como proxies en lugar de arreglos limpios. A medida que los problemas se volvieron más complejos, incluso gpt-oss mostró límites. Y en general, estos modelos locales siguen siendo más lentos que la inferencia en la nube gratuita.
Optimización de infraestructura: descubrí que ROCm v7 mejora muchísimo la velocidad frente a ROCm v6 y supera a Vulkan en el procesamiento de prompts, que es precisamente lo que más necesita un agente que ingiere contexto grande. Los modelos MXFP4 también rinden ligeramente mejor en AMD. La llegada de técnicas como REAP y MoE cambió notablemente la velocidad: modelos como Qwen3 y versiones de gpt-oss se volvieron mucho más ágiles y un prompt de 10k tokens que antes tardaba ~1 minuto pasó a tardar ~10 segundos en mi equipo.
Modelos enormes y viabilidad local: REAP permitió también probar GLM-4.5-Air, que de otro modo no cabría en memoria. Pero GLM-4.5-Air sigue siendo muy lento al procesar un contexto grande y en la práctica puede tardar varios minutos, lo que lo hace inusable para flujos interactivos. En resumen, los modelos que caben íntegramente en 32 GB VRAM y cuantizados agresivamente pierden mucha capacidad de razonamiento. Los modelos que requieren 64 GB RAM o más ayudan con tareas básicas pero no alcanzan la fluidez y potencia de las variantes full-size en la nube.
Herramientas y documentación: durante la investigación probé ollama, llama.cpp, llama-swap y noté dificultades para inspeccionar la salida cruda del modelo cuando hace llamadas a herramientas. Esto me motivó a crear una pequeña caja de herramientas que incluye un benchmark consistente capaz de evaluar múltiples modelos y configuraciones con hasta 100k tokens de contexto y un proxy que vuelca la salida cruda en tiempo real. Estas utilidades permiten comparar modelos de forma reproducible y entender cuándo un modelo falla en la invocación de herramientas en lugar de suponer que el problema es de la aplicación.
Conclusiones prácticas: los modelos locales han avanzado con MoE y REAP y hoy son mucho más rápidos que hace meses, pero aún hay una diferencia clara con la oferta full-size en nube. Modelos en cloud como Qwen3-235b-A22b-Instruct-2507, Qwen3-Coder-480b o GLM-4.5-Air ofrecen mayor capacidad de razonamiento y una latencia que suele ser mejor en los proveedores gratuitos. Para tareas críticas o agentes IA complejos, hoy la solución óptima suele combinar inferencia en nube con componentes locales. En muchos casos, cuando los modelos locales no alcanzan, pedir ayuda a ChatGPT u otras APIs públicas ofrece la mejor experiencia inmediata.
Cómo puede ayudar Q2BSTUDIO: en Q2BSTUDIO somos expertos en soluciones de software a medida y en integrar inteligencia artificial en procesos empresariales. Diseñamos agentes IA, implementamos aplicaciones a medida y ofrecemos servicios en inteligencia artificial pensados para ia para empresas que necesitan soluciones prácticas y seguras. Si buscas desarrollar un agente de codificación, integrar modelos locales o en la nube, o montar una arquitectura híbrida con servicios cloud aws y azure, podemos ayudarte. Ofrecemos además servicios de ciberseguridad y pentesting para asegurar tus implementaciones, así como servicios de inteligencia de negocio y Power BI para transformar datos en decisiones estratégicas.
Si te interesa una solución personalizada para integrar agentes IA y automatizar procesos con enfoque en seguridad y escalabilidad visita nuestra página de servicios de inteligencia artificial y descubre cómo adaptamos la tecnología a tus objetivos. Para proyectos que requieren aplicaciones sólidas y multiplataforma, conoce nuestros servicios de software a medida.
Palabras clave integradas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi. En Q2BSTUDIO combinamos experiencia en desarrollo, seguridad y análisis para que puedas aprovechar lo mejor de los LLMs locales y en la nube en soluciones reales y seguras.
Comentarios