En el límite entre la ciencia ficción y la ingeniería de software, existe un impulso recurrente: crear una entidad digital que parezca pensar. Algo así como un homúnculo, pero construido con datos, matrices y transformadores. Esa obsesión llevó recientemente a un programador a sumergirse en el antiguo sueño de construir un modelo de lenguaje desde cero, siguiendo una ruta que combina la estética neuro-punk —esa mezcla de hardware limitado y ambición desmedida— con la disciplina de la inteligencia artificial moderna. El resultado no fue un Skynet funcional, pero sí un conjunto de aprendizajes valiosos sobre cómo funcionan realmente estas cajas negras que hoy prometen revolucionar las empresas.

La aventura comenzó con una reflexión simple: si no entiendes algo en profundidad, intenta explicarlo. Y mejor aún, intenta construirlo. Así, tras años programando microcontroladores y viendo desde fuera el avance de los modelos lingüísticos, un desarrollador decidió dar el salto. No se trataba de consumir APIs de OpenAI o Claude, sino de ensuciarse las manos con la mecánica interna: tokenización, configuraciones de capas, funciones de pérdida, y esa magia fría de ver cómo un array de números empieza a generar párrafos coherentes después de miles de iteraciones. Cualquier empresa que hoy busca integrar inteligencia artificial en sus procesos debería entender que ese paso de la teoría a la práctica es donde realmente se forja el valor.

El camino elegido fue didáctico y extremo. Primero, un modelo minúsculo de 10 millones de parámetros entrenado exclusivamente sobre las obras de Chéjov, usando tokenización a nivel de carácter. Después, un salto a 50 millones de parámetros con un corpus de clásicos rusos del siglo XIX —Tolstói, Dostoyevski, Chéjov, Gogol— y un tokenizador BPE con un vocabulario de 16.000 piezas. La diferencia era abismal: el modelo pequeño farfullaba, apenas unía dos frases; el mediano ya mantenía conversaciones, aunque repletas de alucinaciones. Aquí aparece una lección crucial para quienes desarrollan aplicaciones a medida basadas en lenguaje natural: el tamaño del modelo importa, pero también la calidad del corpus y la arquitectura. No basta con lanzar datos masivos; hay que limpiarlos, normalizarlos, y estructurarlos para que el aprendizaje sea eficiente.

Uno de los hallazgos más fascinantes fue el efecto de los 'atractores'. Ante un mismo prompt inicial, el modelo podía bifurcarse hacia dos géneros completamente distintos: una narración literaria o el aparato crítico de una edición académica. Bastaba un carácter —un salto de línea o un espacio— para desencadenar una trayectoria generativa diferente. Este comportamiento recuerda a los sistemas complejos donde pequeñas decisiones determinan el destino. En el mundo empresarial, algo similar ocurre cuando se diseñan agentes IA que deben interactuar con datos heterogéneos: la calidad del primer prompt o la arquitectura del sistema condiciona todo el flujo posterior. Por eso, empresas como Q2BSTUDIO ofrecen servicios de inteligencia artificial para empresas que van más allá de la simple integración de APIs, abarcando desde la selección del modelo hasta el ajuste fino con datos propios.

El experimento continuó con un paso ambicioso: convertir un modelo base en un chatbot funcional utilizando un conjunto de datos de diálogos en ruso y la técnica de Supervised Fine-Tuning (SFT). Se añadieron tokens especiales para estructurar la conversación y se enmascaró la pérdida para que el modelo solo aprendiera de las respuestas del asistente. El resultado fue un bot que respondía en el formato correcto, pero que fallaba estrepitosamente en tareas aritméticas o lógicas. Pedirle que escribiera un algoritmo de ordenación producía código con la forma adecuada —indentación, funciones— pero con implementaciones absurdas. Es un espejo de lo que ocurre en muchos proyectos de automatización: la estructura superficial se imita con facilidad, pero la semántica profunda requiere un diseño cuidadoso. Aquí es donde el software a medida y un enfoque de desarrollo de aplicaciones multiplataforma marcan la diferencia, pues permiten ajustar los modelos a necesidades específicas en lugar de confiar en soluciones genéricas.

Para superar las limitaciones, se exploró el aprendizaje por refuerzo con KTO (Kahneman-Tversky Optimization). La idea era castigar respuestas incorrectas —como plantillas vacías o bucles sin sentido— y premiar las respuestas de alta calidad. Pero el entrenamiento salió mal: el modelo terminó generando una especie de 'modo artístico', con textos pseudo-filosóficos y neologismos extraños. En lugar de mejorar, la red se refugió en modos raros del corpus. Este efecto secundario ilustra un principio fundamental: el aprendizaje por preferencias no solo mueve el comportamiento deseado; transforma toda la distribución de probabilidad. Para cualquier empresa que desee implementar servicios cloud AWS y Azure para entrenar modelos, esta advertencia es clave: un mal diseño del algoritmo de refuerzo puede desestabilizar por completo el sistema.

A pesar de los tropiezos, el proyecto demostró que es viable construir un modelo de lenguaje desde cero con hardware modesto —una GPU de 4 GB, un portátil, y mucha paciencia— y convertirlo en un binario ejecutable que cualquiera puede descargar y probar. El empaquetado en Go, sin dependencias externas, logró un archivo de menos de 100 MB que corre a 35 tokens por segundo en una CPU. Esa eficiencia es relevante para aplicaciones donde la privacidad de los datos es crítica: un modelo que se ejecuta localmente evita enviar información sensible a la nube. Esto conecta directamente con la ciberseguridad y la necesidad de mantener el control sobre los datos, un servicio que Q2BSTUDIO integra en sus soluciones, tanto en auditorías de seguridad como en despliegues híbridos.

En retrospectiva, el homúnculo digital sigue siendo un sueño. Los modelos de 50 millones de parámetros no son más que imitadores hábiles, incapaces de razonar de verdad. Pero el viaje de construirlos revela algo importante: la inteligencia artificial, en su estado actual, es una herramienta de patrones, no de comprensión. Sin embargo, bien orquestada —con datos de calidad, arquitecturas adecuadas y procesos de ajuste fino— puede transformar la forma en que las empresas operan. Desde la inteligencia de negocio con Power BI hasta la automatización inteligente, el conocimiento acumulado en estos experimentos artesanales alimenta soluciones profesionales. Y si alguien quiere empezar su propio proyecto de IA, recordará que el primer paso no es el código, sino la pregunta: ¿qué quiero que este homúnculo entienda realmente?