阿里千问:Qwen3-TTS全家桶开源上线

发布时间:

阿里千问Qwen3-TTS多码本全系列模型已开源,包含1.7B和0.6B两种尺寸,支持音色克隆、创造及10种主流语言生成。
 
核心功能与技术亮点
1. 全场景语音生成能力
音色克隆:仅需3秒音频即可复刻声音,跨语种克隆性能超越MiniMax和ElevenLabs,中英文词错误率低至2.34%。
音色创造:通过自然语言描述生成定制化声音,如“温暖磁性的中年男声带慵懒感”,InstructTTS-Eval评分超越闭源模型。
低延迟流式生成:Dual-Track双轨架构实现97ms端到端延迟,输入单字即可输出首包音频,适配直播、实时翻译等场景。
2. 技术突破
Qwen3-TTS-Tokenizer-12Hz编码器:高效压缩语音信号,保留副语言信息(如情感、语气)和声学环境特征。
端到端架构:离散多码本LM设计规避传统方案的级联误差,支持10种语言及多种方言,长语音生成(10分钟)中英词错率分别为2.36%/2.81%。
模型版本与应用场景
1. 模型选择
1.7B模型:极致性能,支持复杂音色控制和多语言生成,适合企业级应用。
0.6B模型:均衡性能与效率,6GB显存即可运行,适合端侧部署(如手机、嵌入式设备)。
2. 落地方式
开源获取:GitHub、HuggingFace提供完整代码与权重,支持全参数微调。
API调用:通过QwenAPI快速接入,适合开发者集成到虚拟主播、智能客服等产品。
性能评估
音色克隆:在Seed-tts-eval测试中,中英文稳定性超越MiniMax和SeedTTS,说话人相似度达0.789。
多语言能力:10种语言平均词错误率1.835%,支持粤语、四川话等9种方言,还原地方口音特色。
要不要我帮你整理一份Qwen3-TTS模型部署教程?
阅读全文
▋最新热点