Comandante de voz: transcripción de voz automatizada para desarrolladores
Voice Commander es una solución de transcripción por voz impulsada por inteligencia artificial diseñada especialmente para desarrolladores que necesitan transformar lenguaje natural en prompts limpios y estructurados listos para alimentar modelos de lenguaje o documentación técnica.
La herramienta combina la transcripción local acelerada por GPU mediante whisper.cpp con el refinamiento inteligente de texto a través de Gemini API. La innovación principal es el postprocesado con Gemini que elimina muletillas y ruidos, corrige gramática y organiza la salida en formatos estructurados como XML y JSON, lo que facilita su ingestión por LLMs y pipelines de automatización.
Características clave: Teclas rápidas F8 y F9 para grabación rápida Aceleración por GPU con Whisper en modo GPU only, sin fallback a CPU Refinamiento por IA mediante Gemini para eliminar rellenos y mejorar la gramática Salida estructurada en XML JSON o texto plano Auto pegado del texto transcrito en el cursor Extensión para VS Code para integración fluida con el editor Privacidad first: la transcripción ocurre localmente y solo el texto refinado llega a la API
Cómo funciona: presiona F8 para empezar a grabar, habla de forma natural, por ejemplo: Input: um so like I want to [NOISE] create a function that uh calculates fibonacci, presiona F9 para detener, Whisper transcribe localmente con aceleración GPU, Gemini refina el texto eliminando muletillas y estructurando la salida, y el texto limpio se pega automáticamente donde tengas el cursor.
Ejemplo práctico: Input: um so like I want to [NOISE] create a function that uh calculates fibonacci Output: Create a function that calculates the Fibonacci sequence
Instalación y puesta en marcha: 1 Instalar whisper.cpp clonando el repositorio y compilando make 2 Descargar el modelo con el script models/download-ggml-model.sh medium.en 3 Instalar dependencias de Python pip install sounddevice scipy numpy pyperclip pynput 4 Ejecutar Voice Commander python portable_commander.py
Extensión para VS Code: el proyecto incluye una extensión para VS Code que permite integrarlo directamente en el flujo de desarrollo. Consulta la carpeta VScode_extension para instrucciones de instalación e integración.
Requisitos: whisper.cpp compilado en el directorio padre, Python 3.7 o superior, acceso a micrófono y opcionalmente GPU para transcripciones más rápidas.
Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida con experiencia en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones integrales desde el desarrollo de aplicaciones a medida hasta despliegues seguros en inteligencia artificial para empresas. Nuestro equipo de especialistas en ciberseguridad realiza auditorías y pentesting para proteger tu aplicación, mientras que nuestros servicios cloud aws y azure garantizan despliegues escalables y fiables.
Servicios complementarios: implementamos soluciones de inteligencia de negocio y Power BI para convertir datos en decisiones accionables, desarrollamos agentes IA y soluciones de ia para empresas, y ofrecemos automatización de procesos para optimizar flujos de trabajo. Palabras clave relacionadas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi.
Si buscas integrar transcripción por voz avanzada en tus procesos de desarrollo o crear soluciones a medida que incorporen IA y seguridad, Q2BSTUDIO puede ayudarte a diseñar e implementar la solución adecuada a tus necesidades.
Comentarios