InfinityHuman— 字节联合浙大推出的AI数字人视频生成模型
发布时间:
InfinityHuman 是字节跳动商业化 GenAI 团队联合浙江大学推出的商用级长时序音频驱动人物视频生成模型,旨在突破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。
核心功能与技术突破
- 输入输出:仅需提供一张人物图像与对应音频素材,即可自动生成连贯自然的高分辨率长视频,支持 30 秒产品快推、3 分钟演讲致辞等场景,甚至能让电影中的人物“复活”为动态数字人,实现肢体动作与语音节奏高度同步。
-
技术优势
- 解决身份漂移难题:通过姿态引导优化技术,以稳定的骨骼姿态序列为锚点,结合初始图像的视觉特征,确保数字人在长时间视频中保持面部特征、光影风格的一致性,避免“越生成越不像”的问题。
- 攻克细节失真难题:精准捕捉并还原手部交互、面部微表情、情感起伏等细节,突破同类技术中手部僵硬、表情呆板的瓶颈,让手势动作自然流畅,情绪表达细腻真实。
商用场景应用
从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用:
- 电商带货:虚拟主播可手持商品进行沉浸式讲解。
- 企业培训:虚拟讲师能完成长时间课程录制。
- 自媒体创作:数字人主播可实现每日内容量产。
尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中文内容创作需求。
技术框架
InfinityHuman 是一个统一框架,旨在通过单张参考图像、音频和可选文本提示生成长时间、全身的高分辨率说话视频,确保视觉一致性、精准唇同步和自然手部动作。该框架采用由粗到细策略:
- 低分辨率音视频生成模块:基于 FlowMatching 和 DIT,融合参考图像、文本、音频等多模态信息,通过多模态条件注意力机制增强音频与视觉的对齐,得到含粗略动作的低分辨率视频。
- 姿态引导细化模块:结合低分辨率视频和参考图像生成高分辨率视频,利用参考图像作为身份先验,通过前缀潜变量参考策略和姿态引导确保长时生成中的时序连贯性与外观一致性。
- 手部校正策略:引入手部特定奖励反馈学习,针对手部易出现的畸变问题,利用预训练奖励模型进行偏好微调,提升手部动作的真实感与结构完整性。
实验结果
在 EMTD 和 HDTF 数据集上的评估显示,InfinityHuman 在音频驱动全身说话视频生成任务中表现优异,在视觉真实感(FID)和时序连贯性(FVD)指标上均优于 FantasyTalking、Hallo3 等主流基线方法,生成视频的整体质量显著提升。消融实验进一步验证了核心模块的有效性:移除姿态引导细化模块会导致视觉质量下降、身份一致性减弱,视觉细节模糊且时序连贯性降低;取消手部奖励机制则使手部关键点精度下降,手部失真现象明显增多。