阿里千问:Qwen3-TTS全家桶开源上线

发布时间：

阿里千问Qwen3-TTS多码本全系列模型已开源，包含1.7B和0.6B两种尺寸，支持音色克隆、创造及10种主流语言生成。

核心功能与技术亮点

1. 全场景语音生成能力

音色克隆：仅需3秒音频即可复刻声音，跨语种克隆性能超越MiniMax和ElevenLabs，中英文词错误率低至2.34%。

音色创造：通过自然语言描述生成定制化声音，如“温暖磁性的中年男声带慵懒感”，InstructTTS-Eval评分超越闭源模型。

低延迟流式生成：Dual-Track双轨架构实现97ms端到端延迟，输入单字即可输出首包音频，适配直播、实时翻译等场景。

2. 技术突破

Qwen3-TTS-Tokenizer-12Hz编码器：高效压缩语音信号，保留副语言信息（如情感、语气）和声学环境特征。

端到端架构：离散多码本LM设计规避传统方案的级联误差，支持10种语言及多种方言，长语音生成（10分钟）中英词错率分别为2.36%/2.81%。

模型版本与应用场景

1. 模型选择

1.7B模型：极致性能，支持复杂音色控制和多语言生成，适合企业级应用。

0.6B模型：均衡性能与效率，6GB显存即可运行，适合端侧部署（如手机、嵌入式设备）。

2. 落地方式

开源获取：GitHub、HuggingFace提供完整代码与权重，支持全参数微调。

API调用：通过QwenAPI快速接入，适合开发者集成到虚拟主播、智能客服等产品。

性能评估

音色克隆：在Seed-tts-eval测试中，中英文稳定性超越MiniMax和SeedTTS，说话人相似度达0.789。

多语言能力：10种语言平均词错误率1.835%，支持粤语、四川话等9种方言，还原地方口音特色。

要不要我帮你整理一份Qwen3-TTS模型部署教程？