Gemma 2B en Kubernetes con Ollama: Configuración Local de IA

Me fascinó descubrir cómo se ejecutan modelos de lenguaje grandes de forma local y totalmente offline sin depender de costosos clusters GPU o APIs en la nube, pero al intentar desplegar Gemma 2B manualmente en mi equipo el proceso fue desordenado: había que descargar pesos enormes, al reiniciar el contenedor todo se volvía a descargar y no había orquestación ni resiliencia, así que si el contenedor moría se perdía toda la configuración.

La pregunta fue sencilla: se puede ejecutar Gemma 2B de forma eficiente, totalmente conteinerizada y orquestada por Kubernetes con una configuración local limpia Sin duda la respuesta es sí utilizando k3d más Ollama más Kubernetes y Gemma 2B, logrando un entorno local reproducible y persistente.

Qué aprenderás en este artículo despliegue de Gemma 2B usando Ollama dentro de un clúster k3d cómo exponer la API localmente cómo persistir los pesos del modelo para evitar redescargas y soluciones básicas de troubleshooting para pods y contenedores.

Stack técnico k3d para un Kubernetes ligero dentro de Docker, Ollama como runtime para LLMs que permite ejecutar modelos como Gemma y Llama y ofrece una API REST local, Gemma 2B modelo ligero de Google de aproximadamente 1.7GB que funciona offline y WSL2 si trabajas desde Windows.

Conceptos clave Ollama es una herramienta simple para ejecutar LLMs localmente descarga modelos y expone un endpoint REST para inferencia y una vez descargados los pesos funciona completamente offline. Por qué Kubernetes y por qué k3d en lugar de ejecutar Ollama a pelo porque k3d levanta un K8s muy ligero dentro de Docker y nos da pods, PVCs y servicios para gestionar ciclo de vida escalado y persistencia de forma estándar.

Importancia del almacenamiento con PVC sin un PersistentVolumeClaim cada vez que el pod muera perderás los pesos del modelo. Con PVC los modelos sobreviven a reinicios, escalados y redeploys.

Paso a paso resumen 1 Instalar k3d ejecutar curl -s https://raw.githubusercontent.com/k3d-io/k3d/main/install.sh | bash y luego k3d cluster create gemma-cluster --agents 1 --servers 1 2 Desplegar Ollama en Kubernetes crear un deployment que monte un PVC para /root/.ollama y un servicio tipo LoadBalancer que exponga el puerto 11434 3 Descargar Gemma 2B dentro del pod con kubectl exec -it deploy/ollama -- ollama pull gemma:2b 4 Probar la API consumiendo el endpoint local /api/generate indicando el modelo gemma:2b y un prompt sencillo como escribir un poema corto sobre Kubernetes.

Consejos prácticos evita poner todo sin persistencia usa PVCs para el almacenamiento de pesos si ves CrashLoopBackOff revisa logs del pod y ajusta recursos CPU y memoria en el spec si el modelo se vuelve a descargar tras reinicios confirma que el volumen realmente está montado y que el claim está ligado a un PV en el cluster para exponer puertos en k3d usa el tipo LoadBalancer y mapea puertos de k3d a localhost para accesibilidad local.

Errores comunes y soluciones el pod en CrashLoopBackOff suele requerir más CPU o RAM o variables de entorno mal configuradas la re-descarga de modelos se soluciona con PVC y permisos de volumen incorrectos se corrigen ajustando securityContext o ownership del directorio donde Ollama almacena los pesos problemas de puerto se resuelven con la configuración de LoadBalancer y el mapeo de puertos de k3d.

Estructura final del proyecto ejemplo gemma-k3d con archivos de despliegue como ollama-deployment.yaml script de creación k3d-cluster-setup.sh y un README con instrucciones reproducibles es una buena práctica para mantener el entorno consistente y versionado.

Próximos pasos y monitoring en una siguiente fase se pueden añadir Prometheus y Grafana para monitorizar uso de CPU memoria y latencia por inferencia y así tener visibilidad de costes y rendimiento en entornos de desarrollo y pruebas.

Sobre Q2BSTUDIO somos Q2BSTUDIO empresa especializada en desarrollo de software y aplicaciones a medida que ofrece soluciones integrales en inteligencia artificial ciberseguridad servicios cloud aws y azure y servicios de inteligencia de negocio. Ayudamos a empresas a integrar modelos LLM en sus procesos creando soluciones de software a medida y aplicaciones a medida seguras y escalables. Si te interesa potenciar tus proyectos con IA corporativa visita nuestra página de inteligencia artificial para empresas en servicios de inteligencia artificial y si necesitas desarrollar una aplicación personalizada conoce nuestro enfoque en software a medida y aplicaciones a medida.

Palabras clave integradas para mejorar posicionamiento aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi y automatización de procesos. Contacta con Q2BSTUDIO para asesoría sobre cómo poner Gemma 2B en producción local o en la nube y para diseñar soluciones de IA seguras y adaptadas a tu negocio.

Si quieres puedo facilitar ejemplos de manifest YAML listados de comandos exactos y un archivo de despliegue listo para aplicar en tu clúster k3d y así acelerar la puesta en marcha de tu entorno local de LLMs.

Compartir

Comentarios

También te puede interesar

Trasladando la lógica fuera de las cápsulas: Ampliando el controlador de flujos de trabajo de Argo

De FP16 a Q4: Comprendiendo la Cuantización en Ollama

De cero a escala ML: implementación de modelos ONNX en Kubernetes con FastAPI y HPA

Kubernetes acaba de jubilar el Ingress que todos pensaban que era "el predeterminado"

Creando un bot de Discord de IA con Ollama

Ejecutando cualquier agente de IA en Kubernetes: Paso a paso