阿里开源通义 Wan2.1首尾帧生视频模型

小哪吒

      2025 年 4 月 17 日，浙江 —— 阿里通义正式开源 Wan2.1 系列模型，该模型在视频生成领域实现了显著的技术突破。Wan2.1 采用先进的 DiT 架构，其高效的视频压缩 VAE 模型有效降低了运算成本，使高清视频生成更加高效经济。Transformer 部分基于主流视频 DiT 结构，通过 Full Attention 机制精准捕捉长时程时空依赖关系，确保生成视频的时间与空间一致性。
      此次发布的首尾帧生视频模型在基础架构上引入额外条件控制分支，用户输入的首帧和尾帧作为控制条件，实现流畅精准的首尾帧变换。模型通过拼接首帧、尾帧与若干零填充中间帧构成控制视频序列，进一步与噪声及掩码拼接后作为扩散变换模型（DiT）的输入。同时，为实现画面稳定性控制，模型提取首帧和尾帧的 CLIP 语义特征，通过交叉注意力机制将其注入 DiT 的生成过程中。
      在训练及推理优化方面，Wan2.1 采用基于线性噪声轨迹的流匹配方法。训练阶段，文本与视频编码模块采用数据并行与完全分片数据并行相结合的分布式策略，扩散变换模型（DiT）模块则运用多种并行策略，支持 720p 分辨率、5 秒时长的视频切片训练。推理阶段，模型采用多种优化措施，如模型切分策略、序列并行策略等，在确保效果无损的前提下显著缩短推理时间。
      模型训练分为三个阶段，逐步提升能力。第一阶段使用基模型相同数据集，在 480p 分辨率下进行多种任务混合训练；第二阶段构建专门首尾帧模式训练数据，优化首尾帧生成能力；第三阶段采用高精度数据集，在 720p 分辨率下完成最终训练，确保生成视频细节复刻与动作流畅性达到最佳水平。

✅ Github

https://github.com/Wan-Video/Wan2.1

✅ Hugging Face

https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

✅ Modelscope

https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P