Pasé 1.5 años intentando construir un modelo de lenguaje desde cero: Por qué escribí un libro de 854 páginas

Al comienzo de 2024 me propuse un reto que parecía sencillo: este año voy a construir mi propio modelo de lenguaje desde cero. Como muchos ingenieros llevaba años usando modelos de lenguaje, consumiendo APIs, entrenando versiones pequeñas y leyendo artículos académicos, pero en el fondo quería comprenderlos hasta el nivel más básico. No solo cómo usarlos, sino cómo levantarlos pieza a pieza. Pronto descubrí que no tenía idea de en qué me metía.

Lo primero que noté es que aprender a construir un LLM es mucho más difícil de lo que parece en internet. Los recursos se dividían en dos extremos: tutoriales tan básicos que obviaban los verdaderos retos y papers que daban por hecho que ya tenías un doctorado en deep learning. Unos asumían que conocías redes neuronales, otros que sabías PyTorch. La mayoría no podían seguirse de principio a fin sin rellenar enormes huecos. Y casi ninguno contaba el viaje real: la depuración, los fallos, los callejones sin salida, los experimentos que no funcionaron y las GPUs que se apagaban a las dos de la mañana. Todos mostraban el modelo final. Nadie mostraba el camino.

Mi travesía duró dieciocho meses y no fue lineal. Dejé el proyecto al menos cinco veces y lo reinicié otras tantas. Cada fracaso me enseñó algo nuevo: que la memoria de GPU es un mundo propio, que la calidad del dataset importa más que cualquier otra cosa, que la arquitectura del modelo solo se entiende cuando comprendes cada línea que los frameworks de deep learning ocultan y que hay complejidades que inevitablemente tendrás que destapar. Poco a poco, y con dolor, todo empezó a cobrar sentido no por dominar la teoría, sino por aprender viviendo los errores.

De esa experiencia nació el libro que deseé tener: un manual basado en la práctica y no en suposiciones. Building Small Language Models from Scratch se convirtió en una guía completa escrita como los ingenieros realmente aprenden. No es un paper ni un resumen de alto nivel; explica cada línea de código y recorre la arquitectura paso a paso. Aborda temas que muchos libros ignoran, entre ellos fundamentos de GPU, recolección y limpieza de datos, KV Cache, Multi Query y Grouped Query Attention, cuantización, Mixture of Experts, Rotary Position Embedding, RMSNorm, SwiGLU y mucho más. El resultado fueron 854 páginas porque esa fue la extensión necesaria para contar la historia real.

Si alguna vez has querido construir un modelo de lenguaje y te has sentido perdido con los recursos disponibles, este libro está pensado para ti. Compartir el proceso completo —los errores, las soluciones prácticas y los atajos— es clave para que otros no tropiecen con los mismos problemas. Puedes explorar el código y ejemplos en el repositorio en GitHub y ver una presentación del libro en YouTube. También está disponible para compra en Gumroad y Leanpub.

En Q2BSTUDIO entendemos este tipo de retos porque desarrollamos soluciones reales para empresas que necesitan aplicar inteligencia artificial a sus procesos. Somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con experiencia en inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios de inteligencia de negocio y automatización. Si buscas llevar IA a producción, optimizar procesos con agentes IA o crear cuadros de mando con Power BI, nuestro equipo puede ayudarte. Descubre nuestros servicios de inteligencia artificial en Q2BSTUDIO Inteligencia Artificial o si necesitas desarrollar una aplicación a medida visita nuestro servicio de software y aplicaciones a medida.

Palabras clave relevantes para este artículo y para mejorar posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi. Si tu empresa necesita acompañamiento técnico desde la formación del dataset hasta el despliegue en la nube y la seguridad del modelo, en Q2BSTUDIO ofrecemos consultoría, desarrollo y soporte para llevar tus proyectos de IA a producción con rigor y eficiencia.

Compartir

Comentarios

También te puede interesar

Las 50 mejores empresas de servicios de software a medida en Irun

Top 10 Empresas de chatbots en Nájera

Mejores 3 empresas de servicios de aplicación en Cambados

Top 15 Empresas para Power BI en Castelldefels

¿Qué es un mapa del viaje del cliente B2B y su importancia?

Las mejores 3 empresas para el desarrollo de software en Rentería