Introducción: Ollama es una plataforma para ejecutar modelos de lenguaje grandes localmente en Windows. Para desarrolladores que usan Windows con WSL, este artículo explica paso a paso cómo instalar Ollama en Windows y acceder a él desde WSL para crear agentes IA, integrarlo con Python y solucionar problemas. En Q2BSTUDIO, empresa especializada en desarrollo de software a medida, inteligencia artificial y ciberseguridad, ayudamos a implementar estas soluciones en entornos productivos y seguros.

Por qué este setup importa: ejecutar Ollama nativo en Windows ofrece ventaja de rendimiento para GPU NVIDIA y permite desarrollar con herramientas Linux en WSL mientras el servidor corre en Windows. Ventajas adicionales: mayor eficiencia de recursos, entorno de desarrollo consistente y despliegue más sencillo en entornos on premise o híbridos.

Instalación en Windows: descargar Ollama desde ollama.com/download e instalar ejecutando el instalador. Alternativa por winget: abrir PowerShell con permisos y ejecutar winget install --id Ollama.Ollama. Verificar instalación con ollama -v y testear salud con curl http://localhost:11434. Descargar modelos útiles con ollama pull llama3.2 y ollama pull gemma3:1b. Los modelos se almacenan en %USERPROFILE%\.ollama\models.

Configurar Ollama para acceso desde WSL: hay que hacer que Ollama escuche en todas las interfaces. Método GUI: Panel de control Sistema, Configuración avanzada, Variables de entorno, crear variable de usuario OLLAMA_HOST con valor 0.0.0.0:11434. Método PowerShell: ejecutar setx OLLAMA_HOST 0.0.0.0:11434. Reiniciar Ollama desde el icono en la barra de tareas. Si hay problemas de conexión, agregar regla de firewall en PowerShell administrador con New-NetFirewallRule -DisplayName OllamaWSLAccess -Direction Inbound -LocalPort 11434 -Protocol TCP -Action Allow. Verificar con netstat -an | findstr 11434 que exista una entrada TCP 0.0.0.0:11434 LISTENING.

Configurar WSL para conectar a Ollama en Windows: comprobar que WSL2 está instalado con wsl --version y wsl -l -v. Obtener la IP del host Windows desde WSL examinando /etc/resolv.conf o la salida de ip route show y tomar la IP del gateway que aparece en la línea default via. Probar desde WSL con curl http://IP_WINDOWS:11434. Si responde Ollama is running la conexión funciona.

Variables de entorno en WSL: para la sesión actual export WINHOST=IP_WINDOWS export OLLAMA_HOST=http://$WINHOST:11434. Para persistencia añadir estas líneas al final de ~/.bashrc y luego source ~/.bashrc. Opcionalmente instalar la CLI Ollama en WSL con curl -fsSL https://ollama.com/install.sh | sh; esto instala solo el cliente, el servidor sigue en Windows.

Integración con Python y creación de un agente IA: crear proyecto, añadir dependencias y un archivo .env con variables como OLLAMA_OPENAI_BASE_URL=http://IP_WINDOWS:11434/v1 y OLLAMA_CHAT_MODEL=gemma3:1b. En el código Python usar un cliente compatible con la API OpenAI apuntando a la base URL anterior y una clave api_key igual a ollama o la que requiera la librería. Implementar un REPL de chat con streaming leyendo mensajes de usuario, enviando al endpoint /v1 chat completions y mostrando la respuesta por partes. Antes de iniciar chat, verificar conectividad a la base URL sin el sufijo /v1 para comprobar health. Ejecutar con uv run python main.py o python main.py según el gestor elegido.

Troubleshooting común: si WSL muestra connection refused, comprobar que Ollama está en ejecución en Windows, que OLLAMA_HOST está seteado a 0.0.0.0:11434 y que el firewall no bloquea el puerto. Si el script Python intenta conectar a localhost en lugar de a la IP de Windows, revisar la variable OLLAMA_OPENAI_BASE_URL en .env y exportarla antes de ejecutar. Si la IP del host cambia tras reiniciar, usar la detección dinámica en .bashrc que extrae el gateway al iniciar el shell. Si un modelo no se encuentra, descargarlo en Windows con ollama pull MODEL_NAME y actualizar OLLAMA_CHAT_MODEL en .env.

Buenas prácticas y rendimiento: durante desarrollo usar modelos pequeños como gemma3:1b para respuestas rápidas y modelos más grandes en producción. Monitorizar uso de GPU desde el Task Manager de Windows y cerrar modelos no usados con ollama stop model_name para liberar memoria. Limitar la ventana de contexto en las llamadas API para controlar consumo de memoria y latencia.

Seguridad y operaciones: no exponer Ollama a internet; binding 0.0.0.0 solo para acceso local entre WSL y Windows. Mantener archivos .env en .gitignore para proteger claves. Para monitorización y trazabilidad integrar soluciones como Langfuse o enviar logs de errores a ficheros y sistemas de monitorización.

Servicios Q2BSTUDIO: en Q2BSTUDIO ofrecemos servicios integrales para llevar este tipo de arquitecturas a producción, desde el desarrollo de aplicaciones a medida hasta la integración de IA en empresas. Si buscas potenciar procesos con agentes IA o desarrollar aplicaciones de alto valor, consulta nuestros servicios de software a medida y aplicaciones a medida y nuestra oferta en inteligencia artificial para empresas. También podemos asesorar en seguridad y pentesting, migraciones y despliegue en servicios cloud aws y azure y en soluciones de inteligencia de negocio y power bi para explotar datos y métricas.

Conclusión: con Ollama corriendo en Windows y WSL configurado para acceder a él se obtiene un entorno flexible y eficiente para desarrollar agentes IA locales sin depender de la nube. Las claves son setear OLLAMA_HOST en Windows a 0.0.0.0:11434, apuntar desde WSL a la IP correcta del host Windows en OLLAMA_OPENAI_BASE_URL y asegurarse de que el firewall permite el tráfico en el puerto 11434. Si necesitas implantación, optimización o desarrollo de agentes IA y soluciones a medida, en Q2BSTUDIO combinamos experiencia en desarrollo, ciberseguridad y servicios cloud para ayudarte a llevar tu proyecto a producción.