Introducción: Granite Docling es una solución avanzada para la conversión de imágenes de documentos complejos a texto estructurado y editable, desarrollada por IBM Research y diseñada para integrarse perfectamente con el estándar Docling y con DoclingDocuments, preservando la estructura original y facilitando su uso en flujos de trabajo de inteligencia documental.

Resumen del modelo: Granite Docling es un modelo multimodal imagen más texto a texto optimizado para conversión de documentos. Con apenas 258M de parámetros y una arquitectura basada en IDEFICS3, sustituye el codificador visual por siglip2-base-patch16-512 y emplea un LLM Granite de 165M para el componente de lenguaje. Su diseño compacto lo hace muy eficiente y rentable, manteniendo capacidades comparables a sistemas mucho mayores.

Capacidades clave: el modelo no se limita a la extracción de texto tipo OCR, también reconoce y preserva la disposición y la estructura del documento, identifica con precisión la estructura de tablas, maneja matemáticas inline y flotantes, reconoce fragmentos de código y ofrece QA sobre elementos del documento como la presencia y el orden de secciones. Además incluye modos de inferencia flexibles como inferencia de página completa y regiones guiadas por bbox, mejor estabilidad para evitar bucles infinitos y soporte experimental para japonés, árabe y chino.

Ventajas frente a enfoques tradicionales: a diferencia de muchos métodos basados en grandes VLM adaptados a OCR, Granite Docling está diseñado específicamente para la conversión de documentos, lo que permite preservar elementos estructurales complejos en una representación DocTags ideal para aplicaciones de Retrieval Augmented Generation RAG y otros procesos de ingestión documental automatizada.

Integración y uso práctico: Granite-Docling-258M se integra en las tuberías de Docling y puede utilizarse tanto desde demos en plataformas como Hugging Face como en entornos locales. En lugar de mostrar fragmentos de código, recomendamos preparar un entorno virtual, instalar las dependencias necesarias y ejecutar el pipeline de Docling para generar DocTags, convertirlos a DoclingDocument y exportar a HTML o Markdown con imágenes incrustadas. El flujo habitual incluye cargar la imagen del documento, aplicar la plantilla de prompt del procesador y generar la salida en formato doctags que luego se transforma en documentos estructurados listos para exportar o indexar.

Resultados y rendimiento: pruebas en conjuntos como PubTabNet, FinTabNet y PubTables-1M muestran que representaciones optimizadas para tablas pueden ofrecer igual o mejor calidad que HTML en métricas como TED y mAP, y además acelerar significativamente la inferencia gracias a una representación de secuencia reducida. Granite Docling destaca por mantener alta fidelidad en la recuperación de estructura y contenido aun en tablas complejas o documentos financieros extensos.

Casos de uso recomendados: digitalización y estructuración de artículos académicos, informes financieros, formularios con tablas complejas, documentación técnica con ecuaciones y código, y preparación de contenido documental para procesos de búsqueda y respuesta basados en RAG. Su salida estructurada facilita integraciones posteriores con herramientas de inteligencia de negocio y visualización.

Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones de inteligencia artificial, ciberseguridad y servicios cloud. Ayudamos a organizaciones a aprovechar modelos de comprensión documental como Granite Docling para automatizar procesos, extraer conocimiento y alimentar sistemas de business intelligence. Ofrecemos servicios de software a medida y desarrollo de aplicaciones a medida que integran capacidades de IA, así como consultoría y despliegue de soluciones en la nube con soporte para servicios cloud aws y azure a través de arquitecturas seguras y escalables.

Nuestros servicios incluyen implementación de proyectos de inteligencia artificial y soluciones corporativas, integración de agentes IA para automatización de tareas, y entrega de tableros de inteligencia con Power BI para transformar datos en decisiones. Si su organización necesita seguridad avanzada, también proveemos servicios de ciberseguridad y pentesting que garantizan el despliegue seguro de modelos y pipelines de datos y IA.

Palabras clave y posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi son áreas en las que Q2BSTUDIO añade valor ayudando a convertir datos no estructurados en activos accionables mediante soluciones como Granite Docling.

Conclusión: Granite-Docling-258M representa un salto en la conversión documental al combinar precisión estructural, eficiencia y un tamaño ultra compacto que reduce costes operativos. Para empresas que buscan automatizar la ingestión y procesamiento de documentos con alta fidelidad, y que además requieren integración con plataformas empresariales y soluciones a medida, Q2BSTUDIO ofrece la experiencia necesaria para desplegar, securizar y escalar estas capacidades. Para proyectos concretos de IA y transformación digital visite nuestras soluciones de IA para empresas y contacte con nuestro equipo para diseñar una implementación adaptada a sus necesidades.