腾讯混元开源语音数字人模型：一张图一段音频即可生成动态视频

小哪吒

2025 年 5 月 28 日，腾讯混元发布并开源语音数字人模型 HunyuanVideo-Avatar，该模型由腾讯混元视频大模型及腾讯音乐天琴实验室 MuseV 技术联合研发，为视频创作者提供高一致性、高动态性的视频生成能力。

      用户只需上传人物图像与音频，HunyuanVideo-Avatar 模型便能自动理解图片与音频信息，如人物所在环境、音频蕴含的情感等，进而生成包含自然表情、唇形同步及全身动作的视频。例如输入一张女性拿着吉他坐在沙滩的图片和抒情音乐，模型会生成图中人物弹唱的视频。
      该模型适用于短视频创作、电商与广告等多种场景，可生成人物在不同场景下的说话、对话、表演等片段，降低制作成本。目前，该技术已应用于腾讯音乐听歌陪伴、长音频播客以及唱歌 MV 等场景，如在 QQ 音乐中生成 “AI 力宏” 唱歌视频，在酷狗音乐长音频绘本功能中生成虚拟人讲故事视频，在全民 K 歌中生成用户专属唱歌 MV。
      HunyuanVideo-Avatar 在主体一致性、音画同步方面效果超越开闭源方案，处于业内顶尖水平；在画面动态、肢体自然度方面，效果超越开源方案，与其他闭源方案处在同一水平。其还支持半身或全身场景，提升视频真实感和表现力，且支持多风格、多物种与多人场景，满足动漫、游戏等领域创作需求。在多人互动场景中，能精准驱动多个角色，确保唇形、表情和动作与音频同步，互动自然。
      HunyuanVideo-Avatar 的核心优势源于多个技术创新，由腾讯混元团队与腾讯音乐天琴实验室合作的混元 MuseV 联合项目组研发。目前，单主体能力已开源并在腾讯混元官网上线，用户可在官网 “模型广场 - 混元生视频 - 数字人 - 语音驱动 - HunyuanVideo-Avatar” 中体验，支持上传不超过 14 秒的音频进行视频生成。

项目相关链接

体验入口：https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
项目主页：https://hunyuanvideo-avatar.github.io
Github：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
CNB：https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar
技术报告：https://arxiv.org/pdf/2505.20156