Step-Audio 2 mini— 阶跃星辰开源的端到端语音大模型
发布时间:
Step-Audio 2 mini 是阶跃星辰于2025年9月1日发布的开源端到端语音大模型,在多项国际基准测试中取得SOTA成绩,综合性能超越Qwen-Omni、Kimi-Audio等开源模型,并在大部分任务上超越GPT-4oAudio。其核心特点与技术优势如下:
一、核心能力与性能表现
-
全场景任务领先
- 音频理解:在通用多模态音频理解测试集MMAU上以73.2分位列开源端到端语音模型榜首,能精准解析情绪、语调、音乐等副语言信息及非人声信号(如环境音、笑声)。
- 语音识别:多语言和多方言识别精度第一,中文测试集平均字错误率(CER)3.19%,英语测试集平均词错误率(WER)3.50%,领先其他开源模型15%以上。
- 跨语种翻译:中英互译任务优势显著,CoVoST2评测集得分39.3、CVSS评测集得分29.1,大幅超越GPT-4oAudio及其他开源模型。
- 口语对话:在UROBench口语对话评测的基础与专业赛道均获开源模型最高分,展现优秀的对话理解与自然表达能力。
-
首创语音原生能力
-
ToolCalling能力:支持语音直接触发联网搜索等工具调用,解决传统语音模型“知识陈旧”问题,可实时获取最新信息。
-
情感与副语言解析:通过创新架构理解语气、情绪、潜台词等“弦外之音”,回应更具人情味,告别“冷冰冰”交互。
-
二、技术架构创新
-
真端到端多模态架构
突破传统“ASR+LLM+TTS”三级结构,实现原始音频输入到语音响应输出的直接转换,架构更简洁、时延更低,同时保留对副语言信息(如情绪、语调)和非语音信号(如音乐、环境音)的完整理解。 -
CoT推理与强化学习联合优化
在端到端语音模型中首次引入链式思维推理(Chain-of-Thought)与强化学习,能对复杂音频信号进行精细推理并自然回应,例如根据用户笑声调整对话语气、结合音乐背景生成契合氛围的回复。
三、解决传统语音模型痛点
-
提升“智商”:通过ToolCalling联网搜索和知识增强,弥补传统语音模型知识储备不足问题,具备类文本大模型的推理能力。
-
提升“情商”:精准捕捉情绪、语调等副语言信息,例如识别用户沮丧语气时给予安慰,听懂口语中的潜台词(如“没关系”的真实情绪)。
四、开源与部署
-
开源地址:已在GitHub(https://github.com/stepfun-ai/Step-Audio2)、HuggingFace等平台开放,支持开发者下载部署和二次开发。
-
应用场景:适用于智能座舱(如吉利银河M9已量产搭载)、智能家居、机器人、翻译设备等场景,提供低时延、高自然度的语音交互体验。
总结
Step-Audio 2 mini通过“真端到端架构+CoT推理+ToolCalling”三大创新,实现了“听得清楚、想得明白、说得自然”的语音交互升级,是目前开源领域综合性能最强的端到端语音大模型,有效解决了传统语音模型“智商情商双低”的痛点。