Dec 19, 2025 | El Tongyi Semanal: Tu dosis semanal de IA de vanguardia de Tongyi Lab
Hola creadores y desarrolladores, esta semana trae una cosecha de avances en IA de voz y vídeo que acercan la expresión artificial a nuevas fronteras. Desde Wan2.6, nuestro modelo multimodal cinematográfico que da vida a personajes manteniendo apariencia y voz coherentes, hasta Fun-ASR y Fun-CosyVoice 3, ahora con versiones open source, el futuro de la IA expresiva nunca ha estado tan cerca.
Presentamos Wan2.6, el modelo multimodal cinematográfico que transforma referencias en escenas nuevas. Permite insertar personajes a partir de vídeos de referencia en nuevos escenarios, soporta figuras humanas o humanoides y gestiona interacciones complejas entre varias personas y objetos con consistencia en apariencia y voz. Su narrativa multi-shot inteligente convierte indicaciones sencillas en storyboards automáticos y vídeos con secuencias narrativas ricas en lugar de tomas aisladas. La sincronía audiovisual nativa genera diálogos multi-hablante con labios sincronizados y audio de calidad de estudio, creando una experiencia que no solo se ve real sino que suena real. Genera 15 segundos en 1080p HD con mejoras en adherencia a instrucciones, física del movimiento y control estético. Además ofrece síntesis y edición de imagen cinematográfica con control preciso de lente y luz y soporte de referencia múltiple para transferencias estéticas comerciales fieles. Permite estructurar relatos intercalando textos e imágenes apoyados en conocimiento y razonamiento del mundo real para crear narrativas visuales jerárquicas.
Fun-ASR: reconocimiento de voz de grado empresarial ahora más robusto al ruido, multilingüe y personalizable. La última versión alcanza alta precisión en entornos reales ruidosos como conferencias, estaciones de metro y vehículos. Mejora la transcripción de letras de canciones incluso con música de fondo intensa y soporta 31 idiomas, con rendimiento reforzado en lenguas del este y sureste asiático y cobertura de 7 grandes grupos dialectales chinos y 26 acentos regionales. Su solución basada en RAG eleva la personalización empresarial incrementando el límite de hotwords de 1 000 a 10 000 sin perder precisión. Además lanzamos Fun-ASR-Nano 0.8B como open source, un modelo ligero optimizado para escenarios con recursos limitados, dispositivos edge y reconocimiento en tiempo real de baja latencia.
Fun-CosyVoice 3: la nueva generación de text to speech más rápida, expresiva y de código abierto. Reduce en 50 por ciento la latencia del primer token con streaming TTS bidireccional completo, permitiendo experiencias reales de tipo a voz en tiempo real. Mejora sustancialmente el code switching entre chino e inglés y reduce el WER notablemente. Soporta clonación de voz zero-shot con apenas 3 segundos de audio y ofrece control emocional y consistencia mejorados. Incorpora 30 timbres, 9 idiomas, 18 acentos chinos y 9 estilos emocionales, con capacidad de clonación cross-lingual y mejoras importantes en métricas estándar acercándose en algunos escenarios a la calidad de voz humana grabada. La versión 0.5B se publica como open source con soporte de despliegue local y rendimiento superior frente a modelos TTS open source populares.
Qwen Code v0.5.0: asistente de codificación más inteligente con integración en VSCode, SDK nativo para TypeScript, gestión inteligente de sesiones que guarda y continúa conversaciones, soporte para modelos de razonamiento OpenAI compatibles y control de herramientas personalizadas mediante servidores alojados por el SDK. También añade internacionalización en ruso y mejoras de estabilidad y pruebas.
En la comunidad destacamos recursos creativos que enriquecen flujos de trabajo: LoRAs y workflows para ilustración infantil, pulido de retratos y generación de detalles a nivel de píxel con Z-Image, ideales para libros infantiles, contenido educativo o material animado. Estas contribuciones aceleran la producción y elevan la calidad visual sin necesidad de procesos de upscaling agresivos.
Eventos: WAN MUSE+ Temporada 3 IN CHARACTER ya está en marcha. Se trata de un reto creativo global sobre identidad, narrativa y expresión IA con un premio total de hasta 14 000 USD y categorías como mejor narrativa, mejor corto animado y mejor visual, entre otros. Participa publicando en TikTok, Instagram, X o YouTube con los hashtags indicados y explora plataformas AIGC aliadas para inspirarte.
Acerca de Q2BSTUDIO: Somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida para empresas que buscan soluciones escalables e innovadoras. Ofrecemos servicios integrales en inteligencia artificial y ia para empresas, ciberseguridad y pentesting, así como implementación y gestión de servicios cloud aws y azure. Nuestro equipo crea agentes IA, soluciones de servicios inteligencia de negocio y proyectos con Power BI para convertir datos en decisiones estratégicas. Si necesitas desarrollar una aplicación personalizada o modernizar un servicio existente conoce nuestras opciones de y descubre cómo la puede transformar tus procesos y productos.
Palabras clave integradas para mejorar el posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.
Si te interesa probar las nuevas herramientas y modelos, explorar despliegues locales o incorporar agentes IA en tus flujos de trabajo empresariales, en Q2BSTUDIO diseñamos, desarrollamos e integramos soluciones a medida que combinan investigación en IA con mejores prácticas de seguridad y operaciones cloud. Ponte en contacto para evaluar casos de uso, pruebas de concepto o soluciones a escala de producción.
Gracias por acompañarnos en este viaje de innovación. Mantente atento a próximas ediciones con lanzamientos de modelos, avances en investigación, herramientas open source y ejemplos prácticos que puedes aplicar hoy mismo en tu empresa.
Dec 19, 2025 | El Tongyi Semanal: Tu dosis semanal de IA de vanguardia de Tongyi Lab
Comentarios