Aprovechando pistas visuales, acústicas y lingüísticas para la diarización de hablantes de medios visuales de mundo abierto
Optimiza la diarización de hablantes en medios visuales utilizando pistas para identificar a los oradores de forma eficiente y precisa.