2025 年 5 月 28 日,腾讯混元发布并开源语音数字人模型 HunyuanVideo-Avatar,该模型由腾讯混元视频大模型及腾讯音乐天琴实验室 MuseV 技术联合研发,为视频创作者提供高一致性、高动态性的视频生成能力。
用户只需上传人物图像与音频,HunyuanVideo-Avatar 模型便能自动理解图片与音频信息,如人物所在环境、音频蕴含的情感等,进而生成包含自然表情、唇形同步及全身动作的视频。例如输入一张女性拿着吉他坐在沙滩的图片和抒情音乐,模型会生成图中人物弹唱的视频。
该模型适用于短视频创作、电商与广告等多种场景,可生成人物在不同场景下的说话、对话、表演等片段,降低制作成本。目前,该技术已应用于腾讯音乐听歌陪伴、长音频播客以及唱歌 MV 等场景,如在 QQ 音乐中生成 “AI 力宏” 唱歌视频,在酷狗音乐长音频绘本功能中生成虚拟人讲故事视频,在全民 K 歌中生成用户专属唱歌 MV。
HunyuanVideo-Avatar 在主体一致性、音画同步方面效果超越开闭源方案,处于业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,与其他闭源方案处在同一水平。其还支持半身或全身场景,提升视频真实感和表现力,且支持多风格、多物种与多人场景,满足动漫、游戏等领域创作需求。在多人互动场景中,能精准驱动多个角色,确保唇形、表情和动作与音频同步,互动自然。
HunyuanVideo-Avatar 的核心优势源于多个技术创新,由腾讯混元团队与腾讯音乐天琴实验室合作的混元 MuseV 联合项目组研发。目前,单主体能力已开源并在腾讯混元官网上线,用户可在官网 “模型广场 - 混元生视频 - 数字人 - 语音驱动 - HunyuanVideo-Avatar” 中体验,支持上传不超过 14 秒的音频进行视频生成。
项目相关链接
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!