SkyReels-V2开源：突破视频生成技术边界，开启无限时长电影生成新时代

小哪吒

昆仑万维 SkyReels 团队发布并开源 SkyReels - V2 视频生成模型。该模型全球首发使用扩散强迫框架，融合多模态大语言模型、多阶段预训练、强化学习及扩散强迫框架协同优化，突破视频生成技术边界。

过去一年，视频生成技术发展迅速，但存在提示词遵循、视觉质量、运动动态和视频时长协调难题。现有技术提升视觉质量易牺牲运动动态效果，为保高分辨率限制视频时长，且通用多模态大语言模型难解读电影语法，导致镜头感知生成能力不足。SkyReels - V2 应运而生，具备多项创新技术。

   其设计结构化视频表示方法，结合多模态 LLM 与子专家模型，提升对镜头语言的理解；通过强化学习训练，解决动态扭曲等问题；提出扩散强迫后训练方法，实现长视频高效生成；采用渐进式分辨率预训练与多阶段后训练优化，整合通用数据集、自收集媒体和艺术资源库，经四阶段训练，稳步提升模型表现。
   为评估性能，团队构建 SkyReels - Bench 用于人类评估，利用开源 V - Bench 进行自动化评估。在 SkyReels - Bench 中，SkyReels - V2 在指令遵循、运动质量、一致性和视觉质量上表现优异；在 V - Bench1.0 中，总分和质量分均超对比模型。
   目前，SkyReels - V2 支持生成 30 秒、40 秒高运动质量、高一致性、高保真视频，其故事生成、图像到视频合成、摄像导演及元素到视频生成等多种应用场景，为创意内容制作和虚拟仿真领域提供有力支持，且相关模型已完全开源。