阿里通义千问重磅开源 Qwen3-TTS:97ms超低延迟语音合成,3秒克隆+一句话设计音色,彻底颠覆实

发布时间:

阿里通义千问开源的Qwen3-TTS系列语音合成模型,以97ms超低延迟、3秒音色克隆和一句话设计音色能力,颠覆实时AI语音应用。
 
核心技术突破
1. Dual-Track双轨流式架构
端到端延迟低至97ms,输入单个字即可输出首包音频,适配直播互动、实时翻译等对时延敏感的场景。
2. 极速音色克隆与跨语言迁移
仅需3秒参考音频即可高保真复刻音色,支持中、英、日、韩等10种主流语言及多种中文方言的跨语言迁移。
3. 自然语言驱动的音色设计
用户通过一句描述(如“温暖磁性的中年男声带慵懒感”)即可生成定制化音色,InstructTTS-Eval评分超越闭源模型。
模型性能与版本
1. 多规格模型选择
1.7B模型:追求极致性能,支持复杂音色控制和长语音生成(10分钟语音中英词错率2.36%/2.81%)。
0.6B模型:平衡性能与效率,6GB显存即可运行,适合端侧部署。
2. 全面语言支持
覆盖10种主流语言及9种中文方言,多语言测试集平均词错误率1.835%,说话人相似度0.789,超越MiniMax和ElevenLabs。
开源与应用
开源地址:GitHub(QwenLM/Qwen3-TTS)和HuggingFace提供完整代码与权重,支持全参数微调。
API接入:通过QwenAPI快速集成到虚拟主播、智能客服等产品,个人用户每月享有100万字符免费额度。
要不要我帮你整理一份Qwen3-TTS音色克隆与设计教程?
阅读全文
▋最新热点