Herramienta de clonado de voz con AI privada y LLMs locales

Resumen

TLDR Este artículo presenta una herramienta 100% privada de clonación de estilo de escritura mediante inteligencia artificial que aprende tu voz y genera contenido que suena como si lo hubieras escrito tú mismo, ejecutándose localmente sin enviar datos a la nube.

El problema que queríamos resolver

Como personas que escribimos mucho en redes, correos, blogs y documentación, invertimos horas pulendo mensajes en nuestra voz personal. Las herramientas de IA existentes pueden generar texto, pero a menudo suenan genéricas o robóticas. Nuestro objetivo fue crear una solución que aprendiera el estilo único de cada autor, generara contenido indistinguible del original, funcionara 100% de forma local por privacidad y aceptara muestras de distintos formatos como tweets, correos o artículos.

Qué desarrollamos

Creamos CloneWriter, una herramienta de clonación de voz basada en modelos LLM locales gestionados con Ollama. La solución usa un enfoque de RAG recuperando fragmentos relevantes de escritura y alimentando al modelo con contexto para producir texto con el tono y matices del autor.

Pila tecnológica

Usamos Next.js 14 con App Router para la aplicación full stack, TypeScript para desarrollo tipado, Ollama para ejecutar LLMs localmente incluyendo modelos como llama3.2 y llama3.1, un almacén vectorial basado en archivos con recuperación por palabras clave, Tailwind CSS y Framer Motion para una interfaz cuidada y PapaParse para procesar CSV y JSON.

Arquitectura en pocas palabras

1 Usuario sube muestras de escritura en CSV, JSON o TXT. 2 El sistema extrae texto y lo almacena en el vector store. 3 Cuando el usuario escribe un prompt se consulta el almacén para recuperar muestras relevantes. 4 Se envía el prompt más el contexto recuperado al LLM local en Ollama. 5 Se devuelve el contenido generado mostrando las muestras usadas y puntuaciones de similitud.

Procesamiento de archivos

Implementamos una interfaz drag and drop que acepta CSV, JSON y TXT. Al parsear CSV se filtran columnas comunes de texto y se descartan entradas muy cortas para evitar metadatos. Los archivos se procesan por lotes para evitar picos de memoria y se guardan localmente en data uploads.

Almacén vectorial ligero

En lugar de una base de vectores compleja escogimos un sistema basado en archivos con coincidencia por palabras clave. Para cada consulta se divide el texto de búsqueda, se calcula la superposición de palabras con cada documento y se devuelven los N mejores. Para consultas sin coincidencias se devuelven muestras por defecto. Este enfoque es sorprendentemente eficaz para proporcionar contexto relevante sin infraestructuras pesadas.

Integración con Ollama y prompt system

La clave es proporcionar al LLM contexto rico y un prompt de sistema que indique que debe escribir exactamente en la voz del usuario, imitando tono, vocabulario, longitud de frase y expresiones características, sin disclaimers ni comentarios meta. Ollama permite ejecutar modelos localmente y configurar temperatura, top p y tokens para controlar creatividad y longitud.

Controles de generación

Exponemos controles para ajustar temperatura, max tokens y top p, además de modos predefinidos creativo balanceado y preciso para facilitar la experiencia al usuario. Así se puede elegir entre outputs más conservadores o más creativos según el caso de uso.

Interfaz de usuario y experiencia

La aplicación es una SPA con biblioteca de prompts categorizada para redes sociales, usos profesionales, creativos y personales. Cada generación se guarda localmente en el historial para permitir revisar, copiar o regenerar resultados. También ofrecemos visualización del contexto recuperado con porcentaje de similitud para transparencia y control.

Privacidad y funcionamiento local

Todo se ejecuta en la máquina del usuario No hay APIs externas ni telemetría Las muestras y datos permanecen en carpetas locales y no se recopila ni se envía información. Esto hace que CloneWriter sea ideal para empresas y profesionales con requisitos estrictos de privacidad y cumplimiento.

Despliegue y rendimiento

Recomendamos usar modelos ligeros como llama3.2 3b para respuestas rápidas y modelos mayores como llama3.1 8b para mejor calidad. La aplicación puede ejecutarse en local con Ollama o en contenedores Docker. Para despliegues en nube es necesario seleccionar instancias con memoria suficiente, típicamente a partir de 8 GB de RAM.

Lecciones aprendidas y mejoras futuras

RAG funciona bien incluso con coincidencia por palabras clave si se proporcionan buenas muestras. El prompt de sistema es crítico para obtener la voz adecuada. Los LLMs locales son viables y la privacidad es una ventaja competitiva. Mejoras planificadas incluyen embeddings semánticos usando Xenova o transformersjs fine tuning para personalizar modelos, soporte multiusuario exportación a markdown y PDF y dashboards de métricas de estilo como longitud media de frase y riqueza de vocabulario.

Sobre Q2BSTUDIO

En Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial ciberseguridad y soluciones empresariales. Ofrecemos servicios de software a medida y aplicaciones multiplataforma pensadas para integrar agentes IA y soluciones de ia para empresas, además de servicios de inteligencia de negocio y Power BI. Si tu proyecto necesita una solución de software a medida o una aplicación personalizada visita desarrollo de aplicaciones y software multiplataforma y para proyectos de inteligencia artificial y agentes IA consulta servicios de inteligencia artificial.

Palabras clave y posicionamiento

Este proyecto integra conceptos clave como aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws azure inteligencia de negocio ia para empresas agentes IA y power bi para mejorar visibilidad y posicionamiento en búsquedas relacionadas.

Cómo probarlo

El proyecto está abierto y puede clonarse en GitHub para pruebas locales. Clona el repositorio instala dependencias arranca Ollama y carga muestras de tu escritura para comenzar a generar contenido en tu propia voz. La experiencia demuestra que no hacen falta infraestructuras complejas para obtener resultados útiles una combinación de sistema de recuperación eficaz buen prompting y modelos locales bastan para la mayoría de casos.

Contacto y servicios

Si necesitas desarrollar una solución similar o integrar LLMs locales en tu empresa contacta con Q2BSTUDIO para recibir asesoramiento en proyectos de inteligencia artificial ciberseguridad servicios cloud aws y azure automatización de procesos o inteligencia de negocio con Power BI.

Compartir

Comentarios

También te puede interesar

OpenAI’s New Agent Builder es loco

Tech With Tim: El nuevo constructor de agente de OpenAI es loco - Tutorial completo

Influenciadores de Inteligencia Artificial: cómo ganar dinero en línea hoy

Ciberseguridad Semanal 3: Deepfakes, Phishing 2.0 y el Engaño Digital

Navegando el mundo: personas ciegas online y offline

Agente Telefónico IA en Python para Principiantes