AI 短剧工程实践:视频生成模型选型与实战
视频生成是AI短剧Pipeline中迭代最快、选型最难的环节。2025年下半年到2026年初,Sora 2、Wan2.2、Kling 3.0、Runway Gen-4.5先后发布,格局再次洗牌。
本文从工程实战角度回答三个问题:该用哪个模型?图生视频还是文生视频?怎么集成到生产Pipeline里?
一、两种模式:img2v vs txt2v
AI短剧的视频生成有两种主要模式。
图生视频(img2v)是短剧的主力模式。先用Flux/SDXL生成起始帧,精确控制角色外观、表情、场景,然后让视频模型从这张图动起来。核心优势是角色可控,起始帧的人物已通过LoRA加IP-Adapter加ControlNet保证一致,视频模型只负责动画。
文生视频(txt2v)直接从文字描述生成视频,不需要起始帧。灵活但可控性差,视频模型需要想象角色长什么样,这个想象每次可能不同。在短剧中txt2v主要用于不涉及角色一致性的镜头:空镜头、环境过场、特效。
实际生产的比例约为img2v占70-80%(涉及角色的镜头),txt2v占20-30%(空镜头和过场)。
二、2026年主流模型深度对比
开源阵营
Wan2.1/Wan2.2(阿里通义)是当前开源img2v的标杆。Wan2.2采用MoE架构,将去噪过程按时间步分配给专门的Expert,不增加推理成本就提升了有效容量。关键数据:1.3B参数版本仅需8GB VRAM,可在消费级GPU(RTX 4060以上)运行;14B版本质量接近商业模型,需24GB+VRAM。Wan2.1还是首个支持中英文文字渲染的视频模型,可直接在视频中生成包含文字的画面。
HunyuanVideo(腾讯混元)采用双流Transformer架构,文本和视频token先独立处理再融合,指令遵循能力和复杂场景构图优于Wan2.1。缺点是社区生态不如Wan系列活跃,ComfyUI插件成熟度略逊。
商业阵营
Sora 2(OpenAI,2025年9月发布)是当前画质天花板。核心突破是支持同步音频生成,视频自带匹配的音效和环境音,在短剧空镜头制作中非常有用。缺点是API排队时间长、价格高、不支持自定义角色。适合做不需要角色一致性的高质量镜头。
Kling 3.0(快手可灵)在人物动作自然度上是商业模型中最好的,特别擅长处理手部动作和表情微变化,这是其他模型最容易崩的地方。API稳定、支持img2v、可通过Prompt控制运镜,是短剧制作的核心生产工具。
Runway Gen-4.5的核心优势是运镜精确控制,支持Camera Motion参数化控制(推、拉、摇、移、升、降),运镜可控性最强。适合对镜头语言有精确要求的导演。
Seedance 2.0在氛围和光影渲染上表现突出,适合风景和环境镜头,人物表现力不如Kling 3.0。
综合对比
| 维度 | Wan2.2 | Kling 3.0 | Runway Gen-4.5 | Sora 2 | HunyuanVideo | Seedance 2.0 |
|---|---|---|---|---|---|---|
| 画质 | ★★★★ | ★★★★ | ★★★★☆ | ★★★★★ | ★★★★ | ★★★★ |
| 人物动作 | ★★★☆ | ★★★★★ | ★★★★ | ★★★★ | ★★★☆ | ★★★ |
| 运镜控制 | ★★★ | ★★★★ | ★★★★★ | ★★★ | ★★★ | ★★★☆ |
| 角色一致性保持 | ★★★★ | ★★★★ | ★★★★ | ★★☆ | ★★★☆ | ★★★ |
| 长镜头稳定性 | ★★★★ | ★★★★ | ★★★☆ | ★★★★★ | ★★★★ | ★★★★ |
| 成本 | 免费(本地) | 中等 | 较高 | 高 | 免费(本地) | 中等 |
| API 可用性 | 社区 API | 官方 API | 官方 API | 官方 API | 社区 API | 官方 API |
| img2v 支持 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 自定义角色 | ✅ LoRA 兼容 | ❌ | ❌ | ❌ | ✅ LoRA 兼容 | ❌ |
"角色一致性保持"衡量的是:给定同一张起始帧做img2v,视频中角色面部在5-10秒内的漂移程度。Sora 2评分低是因为不支持img2v的角色锁定机制,只能靠Prompt描述。
三、运镜控制的工程实践
短剧不是技术展示,观众对镜头语言有隐性预期。好的运镜能把AI短剧拉到有质感的作品。
各模型的运镜控制方式
Prompt描述法(所有模型通用):在Prompt中用英文描述镜头运动。例如camera slowly pushes in on the character's face或slow dolly out revealing the entire room。效果取决于模型对运镜指令的理解能力,Kling和Runway最好,Wan系列次之。
参数化控制(Runway Gen-4.5独有):通过Camera Motion参数精确指定运镜类型和幅度,如horizontal: -5(向左摇5个单位)、zoom: 3(推进3个单位)。这是运镜可控性最高的方案,但被锁定在Runway平台内。
ControlNet引导(Wan2.2、HunyuanVideo等开源模型):用ControlNet Depth序列引导相机运动,预先生成一组深度图序列模拟相机轨迹,让视频模型按照轨迹生成。灵活但配置复杂,适合有ComfyUI经验的团队。
短剧常用运镜与推荐模型
| 运镜 | 英文Prompt | 适用场景 | 推荐模型 |
|---|---|---|---|
| 缓推 | slow push in |
悬疑揭秘、情绪聚焦 | Runway(参数精确)、Kling |
| 缓拉 | slow pull out |
开场建立、结尾释放 | Runway、Wan2.2 |
| 横摇 | slow pan left/right |
展示场景全貌 | Runway、Kling |
| 跟随 | tracking shot following the character |
行走、追逐 | Kling(人物动作最自然) |
| 固定 | static camera |
对话、特写 | 任意模型 |
| 俯拍 | high angle shot looking down |
孤独感、压迫感 | Sora 2(空间感最好) |
AI视频模型对固定机位和缓慢推拉的执行效果最好,对快速运动和复杂轨迹(如环绕、斯坦尼康)容易失控。分镜设计上多用固定和缓速,少用快切和复杂运镜。
四、长镜头稳定性:短剧的核心挑战
当前视频模型的单次生成时长在5-10秒。一个3分钟的短剧需要20-40个镜头拼接。长镜头(>10秒)的挑战是角色漂移,视频越长角色越不像自己。
为什么会漂移
扩散模型的生成是逐步去噪的过程,每一步引入微小偏差。这些偏差在5秒内几乎不可察觉,但10秒后累积到肉眼可见,20秒后角色可能换了一个人。DiT架构比U-Net好但没有根本解决。
工程应对策略
分段生成加首帧锚定:把长镜头拆成5秒的片段,每段首帧都用同一张角色参考图做img2v。段间用帧插值(RIFE)做平滑过渡。这是最稳定的生产方案。
锚定帧注入:在生成过程中每隔N帧重新注入角色参考图的特征约束。部分模型和ComfyUI插件支持这种中间锚定机制。效果比纯首帧锚定好,但工程复杂度更高。
后处理修正:用Face Swap在后处理阶段统一面部。对于每一帧,用ArcFace与参考图比对相似度,低于阈值(如0.65)的帧自动触发Face Swap修正。这是兜底方案,效果不完美但覆盖率高。
分镜规避:最现实的策略。把需要长时间看同一个角色的场景拆成多个短镜头(3-5秒),通过剪辑节奏(正反打、切不同角度)来避免长镜头。好的分镜设计比任何后处理技术都有效。
五、成本模型
视频生成的成本由三部分构成:API/算力费用、重试成本、人工审核成本。
各模型单次生成成本
| 模型 | 5秒视频成本 | 10秒视频成本 | 计费方式 |
|---|---|---|---|
| Wan2.2(本地) | ¥0(电费~¥0.1) | ¥0(电费~¥0.2) | 本地GPU |
| Kling 3.0 | ~¥0.5-1.0 | ~¥1.0-2.0 | 按量付费 |
| Runway Gen-4.5 | ~$0.25 | ~$0.50 | Credits |
| Sora 2 | ~$0.50 | ~$1.00 | Credits |
实际生产成本
实际生产中每个镜头平均需要3-5次尝试才能得到满意结果。加上重试和人工筛选的时间成本,实际生产成本约为单次成本的3-5倍。
一个3分钟短剧(约30个镜头)的典型成本:
| 方案 | 视频生成费用 | 人工审核时间 | 总计 |
|---|---|---|---|
| 全本地(Wan2.2) | 电费~¥10 | 4-6小时 | ¥10+时间 |
| 全商业(Kling 3.0) | ¥60-150 | 2-4小时 | ¥60-150+时间 |
| 混合(Wan2.2+Kling) | ¥30-80 | 3-5小时 | ¥30-80+时间 |
混合方案是多数独立创作者的选择:本地Wan2.2跑常规镜头(角色对话、简单动作),商业API跑高难度镜头(复杂运动、大场景、需要精确运镜的关键镜头)。
六、生产Pipeline集成方案
ComfyUI集成(本地模型)
Wan2.1/2.2和HunyuanVideo都有成熟的ComfyUI插件(comfyui-wan、comfyui-hunyuan-video)。典型工作流是:
- 起始帧生成:Flux+LoRA+IP-Adapter+ControlNet生成角色可控的静态帧
- 视频生成:起始帧→Wan2.2 img2v节点→5-10秒视频
- 质量检测:ArcFace面部相似度检测,低于阈值的帧标记
- 后处理:Face Swap修正标记帧→帧插值平滑→超分辨率
整个工作流可保存为ComfyUI workflow JSON,在团队内复用。批量处理时用ComfyUI的Queue模式逐镜头执行。
API集成(商业模型)
Kling 3.0和Runway Gen-4.5都提供REST API。集成要点:
异步生成:视频生成耗时30秒到3分钟,必须用异步模式。提交任务→获取task_id→轮询状态→下载结果。
重试与降级:API可能因排队、超时或内容审核失败。建议设计三级降级:首选Kling 3.0→降级到Runway→降级到本地Wan2.2。
缓存与去重:同一场景多次尝试时,起始帧可能相同,对起始帧做hash避免重复上传。成功结果按scene_id加take_number归档。
多模型混合策略
实际生产中不必拘泥于单一模型。推荐的分工方式:
| 镜头类型 | 推荐模型 | 原因 |
|---|---|---|
| 角色对话特写 | Wan2.2(本地) | 起始帧控制精确,免费 |
| 角色行走/动作 | Kling 3.0 | 人物运动自然度最好 |
| 需要精确运镜 | Runway Gen-4.5 | 参数化运镜控制 |
| 空镜头/环境 | Sora 2或Seedance 2.0 | 画质和氛围感最好 |
| 特效/转场 | txt2v(任意模型) | 不涉及角色一致性 |
按需选模型能节省成本,代价是工程复杂度更高,需要一个统一调度层管理多个模型的API/本地推理,以及统一的产物格式。这正是第 5 篇《角色引擎》中多模态任务调度系统要解决的问题。
七、选型决策树
面对这么多选项,用决策树简化选型:
你有GPU吗?
有(24GB+VRAM):Wan2.2 14B作为主力,高难度镜头用Kling 3.0 API补充,这是成本最低的方案。
没有或仅有消费级GPU(8-12GB):Wan2.2 1.3B做简单镜头,Kling 3.0做主力。预算充足时用Runway Gen-4.5做精确运镜镜头。
你的核心需求是什么?
角色一致性优先→Wan2.2(支持LoRA)+Face Swap后处理
运镜精确控制优先→Runway Gen-4.5
人物动作自然度优先→Kling 3.0
画质天花板→Sora 2(放弃角色一致性控制)
你的生产规模是什么?
个人创作者(月产1-2部)→Wan2.2本地加少量API
小团队(月产5-10部)→Kling 3.0 API为主加Wan2.2兜底
规模化生产(月产50+部)→需要自建调度系统,多模型混合,见系列第5篇
八、展望:接下来会发生什么
视频生成模型正以每3-6个月一个代际的速度迭代。几个值得关注的方向:
端到端角色控制:当前的先生成图再做视频的两步流程本质上是因为视频模型无法直接控制角色身份。一旦视频模型原生支持LoRA或IP-Adapter级别的身份控制,整个Pipeline会大幅简化。Wan系列已经在这个方向上了。
音视频同步生成:Sora 2已支持同步音频。当其他模型跟进后,配音流水线的一部分(音效、环境音)可能被前置到视频生成阶段。
实时推理:StreamDiffusion等流式生成方案正在探索中。一旦img2v的延迟降到1秒以内,实时交互式视频将从理论变为现实。
成本下降:Wan2.2 1.3B已经把本地img2v的门槛降到8GB VRAM。商业API的价格也在持续下降。预计一年内,单个5秒视频的API成本将降到¥0.1以下。
本文是AI短剧工程实践系列的视频生成专题篇。下一篇:角色生产流水线——四层Pipeline实战