昆仑万维 SkyReels 团队发布并开源 SkyReels - V2 视频生成模型。该模型全球首发使用扩散强迫框架,融合多模态大语言模型、多阶段预训练、强化学习及扩散强迫框架协同优化,突破视频生成技术边界。
过去一年,视频生成技术发展迅速,但存在提示词遵循、视觉质量、运动动态和视频时长协调难题。现有技术提升视觉质量易牺牲运动动态效果,为保高分辨率限制视频时长,且通用多模态大语言模型难解读电影语法,导致镜头感知生成能力不足。SkyReels - V2 应运而生,具备多项创新技术。
其设计结构化视频表示方法,结合多模态 LLM 与子专家模型,提升对镜头语言的理解;通过强化学习训练,解决动态扭曲等问题;提出扩散强迫后训练方法,实现长视频高效生成;采用渐进式分辨率预训练与多阶段后训练优化,整合通用数据集、自收集媒体和艺术资源库,经四阶段训练,稳步提升模型表现。
为评估性能,团队构建 SkyReels - Bench 用于人类评估,利用开源 V - Bench 进行自动化评估。在 SkyReels - Bench 中,SkyReels - V2 在指令遵循、运动质量、一致性和视觉质量上表现优异;在 V - Bench1.0 中,总分和质量分均超对比模型。
目前,SkyReels - V2 支持生成 30 秒、40 秒高运动质量、高一致性、高保真视频,其故事生成、图像到视频合成、摄像导演及元素到视频生成等多种应用场景,为创意内容制作和虚拟仿真领域提供有力支持,且相关模型已完全开源。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!