Voice Commander es una solución de transcripción por voz impulsada por inteligencia artificial diseñada especialmente para desarrolladores que necesitan transformar lenguaje natural en prompts limpios y estructurados listos para alimentar modelos de lenguaje o documentación técnica.

La herramienta combina la transcripción local acelerada por GPU mediante whisper.cpp con el refinamiento inteligente de texto a través de Gemini API. La innovación principal es el postprocesado con Gemini que elimina muletillas y ruidos, corrige gramática y organiza la salida en formatos estructurados como XML y JSON, lo que facilita su ingestión por LLMs y pipelines de automatización.

Características clave: Teclas rápidas F8 y F9 para grabación rápida Aceleración por GPU con Whisper en modo GPU only, sin fallback a CPU Refinamiento por IA mediante Gemini para eliminar rellenos y mejorar la gramática Salida estructurada en XML JSON o texto plano Auto pegado del texto transcrito en el cursor Extensión para VS Code para integración fluida con el editor Privacidad first: la transcripción ocurre localmente y solo el texto refinado llega a la API

Cómo funciona: presiona F8 para empezar a grabar, habla de forma natural, por ejemplo: Input: um so like I want to [NOISE] create a function that uh calculates fibonacci, presiona F9 para detener, Whisper transcribe localmente con aceleración GPU, Gemini refina el texto eliminando muletillas y estructurando la salida, y el texto limpio se pega automáticamente donde tengas el cursor.

Ejemplo práctico: Input: um so like I want to [NOISE] create a function that uh calculates fibonacci Output: Create a function that calculates the Fibonacci sequence

Instalación y puesta en marcha: 1 Instalar whisper.cpp clonando el repositorio y compilando make 2 Descargar el modelo con el script models/download-ggml-model.sh medium.en 3 Instalar dependencias de Python pip install sounddevice scipy numpy pyperclip pynput 4 Ejecutar Voice Commander python portable_commander.py

Extensión para VS Code: el proyecto incluye una extensión para VS Code que permite integrarlo directamente en el flujo de desarrollo. Consulta la carpeta VScode_extension para instrucciones de instalación e integración.

Requisitos: whisper.cpp compilado en el directorio padre, Python 3.7 o superior, acceso a micrófono y opcionalmente GPU para transcripciones más rápidas.

Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida con experiencia en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones integrales desde el desarrollo de aplicaciones a medida hasta despliegues seguros en inteligencia artificial para empresas. Nuestro equipo de especialistas en ciberseguridad realiza auditorías y pentesting para proteger tu aplicación, mientras que nuestros servicios cloud aws y azure garantizan despliegues escalables y fiables.

Servicios complementarios: implementamos soluciones de inteligencia de negocio y Power BI para convertir datos en decisiones accionables, desarrollamos agentes IA y soluciones de ia para empresas, y ofrecemos automatización de procesos para optimizar flujos de trabajo. Palabras clave relacionadas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi.

Si buscas integrar transcripción por voz avanzada en tus procesos de desarrollo o crear soluciones a medida que incorporen IA y seguridad, Q2BSTUDIO puede ayudarte a diseñar e implementar la solución adecuada a tus necesidades.