Hola a todos, en Q2BSTUDIO nos complace anunciar que Kreuzberg v4.0.0-RC.8 ya está disponible y la versión estable v4.0.0 se lanzará a comienzos de enero de 2025. Kreuzberg es una herramienta de inteligencia de documentos para extraer texto, metadatos, tablas, imágenes y datos estructurados de más de 56 formatos de archivo, ahora reescrita completamente en Rust para ofrecer mayor seguridad de memoria, rendimiento nativo y cero dependencias del sistema.

La reescritura en Rust trae un núcleo de alto rendimiento con enlaces nativos a múltiples lenguajes. Kreuzberg v4 ya ofrece soporte para 7 lenguajes y 8 runtimes incluyendo Rust, Python, TypeScript Node.js y Deno/Browser vía WASM, Ruby, Java, C# y Go. Además se distribuye como CLI, servidor HTTP REST, servidor MCP para integraciones con clientes como Claude Desktop y en imágenes Docker públicas, lo que lo hace ideal para despliegues en servidores, contenedores y entornos serverless.

Entre las mejoras clave destacan parsers nativos que sustituyen a Pandoc, soporte ampliado a más de 56 formatos incluyendo formatos legacy como doc ppt xls y formatos académicos como LaTeX BibTeX JATS y otros. Los parsers nativos permiten procesamiento en streaming con uso de memoria constante en archivos de varios gigabytes y extracción rica de metadatos y estructuras de documento.

Para flujos de trabajo con modelos de lenguaje Kreuzberg v4 incorpora generación local de embeddings acelerada por ONNX Runtime con tres presets para rapidez equilibrio o calidad y soporte para modelos personalizados. También integra chunking semántico compatible con markdown reducción de tokens en tres modos para ahorrar contexto de LLM detección de idioma en 68 lenguas y extracción de palabras clave con algoritmos YAKE y RAKE todo nativo y optimizado con SIMD y concurrencia asíncrona mediante Tokio.

Un cambio importante para desarrolladores es el seguimiento de páginas preciso por bytes en lugar de índices por caracteres lo que soluciona problemas con UTF-8 en conteo de offsets y facilita mapeo de fragmentos a páginas con búsquedas O1. Además se ha diseñado un sistema de plugins extensible con cuatro tipos de extensiones para extractores OCR postprocesado y validación que funcionan en todos los bindings.

Kreuzberg se posiciona muy bien frente a alternativas de código abierto en tamaño de instalación y rendimiento con una imagen completa de 16 a 31 MB frente a cientos de megabytes o gigabytes de otras soluciones, lo que reduce costes en contenedores y despliegues. Sigue siendo software open source bajo licencia MIT y paralelamente se está desarrollando Kreuzberg.cloud como oferta SaaS y opción self hosted para quienes necesiten servicio gestionado.

En Q2BSTUDIO estamos especializados en llevar tecnologías como Kreuzberg a proyectos reales. Ofrecemos desarrollo de aplicaciones a medida y software a medida para integrar extracción de documentos embeddings y pipelines RAG en productos empresariales. Si busca potenciar procesos con inteligencia artificial para empresas o crear agentes IA personalizados podemos ayudarle con arquitecturas a medida y modelos desplegables en su infraestructura.

Nuestros servicios incluyen ciberseguridad y pentesting para proteger pipelines de datos confidenciales servicios cloud aws y azure para desplegar soluciones escalables y servicios de inteligencia de negocio y power bi para analizar y visualizar la información extraída. Confíe en nuestro equipo de expertos para diseñar e implementar soluciones de automatización y análisis que integren extracción de documentos OCR embeddings y agentes conversacionales.

Si quiere conocer cómo integrar Kreuzberg en soluciones empresariales o construir un flujo completo de extracción preprocesado reducción de tokens embeddings y búsqueda semántica contacte con nosotros para explorar soluciones personalizadas como o para impulsar sus iniciativas de IA visite nuestra página de . En Q2BSTUDIO combinamos experiencia en inteligencia artificial ciberseguridad servicios cloud aws y azure y business intelligence para entregar proyectos escalables y seguros.

Resumen rápido: Kreuzberg v4 es una reescritura completa en Rust que ofrece bindings nativos para múltiples lenguajes soporte para 56+ formatos embeddings locales chunking semántico reducción de tokens seguimiento por bytes un sistema de plugins y servidores listos para producción todo en un paquete ligero y de código abierto. En Q2BSTUDIO podemos ayudarle a aprovechar estas capacidades para casos de uso de RAG búsqueda semántica automatización de procesos y análisis con Power BI.

Nos encantaría conocer sus casos de uso colaborar en integraciones y ofrecer demostraciones personalizadas. Póngase en contacto con Q2BSTUDIO para transformar su gestión documental y sus pipelines de IA con soluciones seguras y a medida.