En Q2BSTUDIO hemos explorado cómo ejecutar aplicaciones de inteligencia artificial directamente en dispositivos iOS basados en ARM, reduciendo la dependencia de la nube y acelerando procesos como la edición de vídeo y la generación de narración. La idea surgió al buscar una forma rápida de pulir vídeos demo: transcribir, limpiar el guion con un LLM en el dispositivo, generar nueva narración y exportar el vídeo final sin subir nada a servidores externos.

La experiencia práctica: importar un vídeo, extraer el audio, transcribir con reconocimiento por voz en el dispositivo, mejorar el texto con MLX Swift y un modelo ligero como Qwen 0.5B 4-bit, sintetizar voz con TTS y recomponer el vídeo con AVFoundation. Todo en el móvil, sin APIs en la nube. Para empresas que buscan soluciones de software a medida esto significa privacidad, latencia mínima y ahorro en costes de API.

Transcripción: usamos SFSpeechRecognizer en modo on device, pero su límite práctico obliga a fragmentar el audio en bloques de 30 segundos. En contenido real con música de fondo y varias fuentes de audio, la reconocida on device puede fallar, por lo que conviene implementar una política de fallback a reconocimiento en servidor cuando la transcripción local queda vacía.

Mejora del texto: MLX Swift permite ejecutar modelos LLM en Metal GPU. Con un modelo pequeño como Qwen 0.5B la estrategia fue limitar la tarea a limpieza: corregir gramática y eliminar muletillas, sin añadir contenido nuevo. Si se pide al modelo que mejore creativamente, modelos compactos pueden inventar información; por eso es crucial definir prompts estrictos que eviten alucinaciones.

Generación de audio: al reproducir el TTS en dispositivo hay que configurar AVAudioSession con la categoría playback y activarlo para que el sonido funcione en dispositivo físico. También es habitual que el comportamiento difiera entre simulador y dispositivo, por lo que las pruebas en hardware real con Metal deben hacerse desde etapas tempranas del desarrollo.

Puntos clave del flujo: extracción de audio con AVAssetExportSession, chunking a segmentos de 30 segundos, transcripción con SFSpeechRecognizer con fallback, limpieza con MLX Swift y Qwen 0.5B, síntesis TTS y composición final con AVMutableComposition. Cada paso debe encapsular errores y proporcionar retroalimentación al usuario para una experiencia robusta.

Lecciones aprendidas y recomendaciones: priorizar frameworks nativos optimizados para ARM como SFSpeechRecognizer, Vision, Natural Language y Core ML antes de añadir modelos externos; diseñar prompts simples para tareas acotadas; probar con contenido real y ruidoso desde el principio; y preparar la app para diferencias entre simulador y dispositivo.

En Q2BSTUDIO ofrecemos desarrollo de aplicaciones a medida y software a medida que integran estas capacidades de IA para empresas. Si buscas incorporar soluciones de inteligencia artificial seguras y eficientes en tu producto, conoce nuestros servicios en desarrollo de aplicaciones y software a medida y en servicios de inteligencia artificial para empresas. También cubrimos ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, agentes IA, power bi y automatización de procesos para ofrecer proyectos llave en mano adaptados a tus necesidades.

Conclusión: ejecutar MLX Swift en dispositivos ARM es plenamente viable y permite crear experiencias de video a voz en segundos con privacidad y baja latencia, pero requiere pruebas en dispositivo, control de prompts y manejo de limitaciones de los modelos pequeños. En Q2BSTUDIO combinamos experiencia en inteligencia artificial, ciberseguridad y desarrollo de software para llevar estas soluciones a producción de forma segura y escalable.