AI 短剧工程实践:视频生成模型选型与实战
本文是「AI 短剧工程实践」系列的视频生成专题篇:
- 从剧本到成片的全流程 — 端到端全景概览
- 人物一致性与技术选型 — 六条路径 + 决策矩阵
- 视频生成模型选型与实战 ← 本篇
- 角色生产流水线 — 四层 Pipeline 实战
- 从视频生成到角色引擎 — 应用层架构设计
- 全自动配音流水线 — 出海配音工程
- 实时交互式视频 — 前瞻探索
视频生成是整条 AI 短剧 Pipeline 中迭代最快、选型最痛的环节。2025 年下半年到 2026 年初,Sora 2、Wan2.2、Kling 3.0、Runway Gen-4.5 先后发布,格局再次洗牌。
本文从工程实战角度出发,回答三个问题:该用哪个模型?图生视频还是文生视频?怎么集成到生产 Pipeline 里?
一、两种模式:img2v vs txt2v
AI 短剧的视频生成有两种主要模式,适用场景完全不同。
图生视频(Image-to-Video, img2v)是短剧的主力模式。工作流是:先用 Flux/SDXL 生成一张起始帧,精确控制角色外观、表情、场景构图,然后让视频模型从这张图"动起来"。这种模式的核心优势是角色可控——起始帧里的人物已经通过 LoRA + IP-Adapter + ControlNet 保证了一致性,视频模型只需要负责"让它动"。
文生视频(Text-to-Video, txt2v)直接从文字描述生成视频,不需要起始帧。灵活但可控性差,因为视频模型需要"想象"角色长什么样——而这个"想象"在每次生成时都可能不一样。在短剧中,txt2v 主要用于不涉及角色一致性的镜头:空镜头、环境过场、特效片段。
实际生产中的比例大约是:img2v 占 70-80%(所有涉及角色的镜头),txt2v 占 20-30%(空镜头和过场)。
二、2026 年主流模型深度对比
开源阵营
Wan2.1 / Wan2.2(阿里通义)是当前开源 img2v 的标杆。Wan2.2 采用 MoE(Mixture-of-Experts)架构,将去噪过程按时间步分配给专门的 Expert,在不增加推理成本的前提下提升了有效容量。关键数据:1.3B 参数版本仅需 8GB VRAM,可在消费级 GPU(RTX 4060 以上)运行;14B 参数版本质量接近商业模型,需要 24GB+ VRAM。Wan2.1 还是首个同时支持中英文文字渲染的视频模型——可以直接在视频中生成包含文字的画面。
HunyuanVideo(腾讯混元)采用双流 Transformer 架构,文本和视频 token 先独立处理再融合,指令遵循能力和复杂场景构图优于 Wan2.1。缺点是社区生态不如 Wan 系列活跃,ComfyUI 插件的成熟度略逊。
商业阵营
Sora 2(OpenAI,2025 年 9 月发布)是当前画质天花板。核心突破是支持同步音频生成——视频自带匹配的音效和环境音,这在短剧空镜头制作中非常有用。缺点是 API 排队时间长、价格高、不支持自定义角色(无 LoRA 接口)。适合做不需要角色一致性的高质量镜头。
Kling 3.0(快手可灵)在人物动作自然度上是商业模型中最好的。特别擅长处理手部动作和表情微变化,而这正是其他模型最容易崩的地方。API 稳定、支持 img2v、可通过 Prompt 控制运镜,是短剧制作的核心生产力工具。
Runway Gen-4.5 的核心优势是运镜精确控制——支持 Camera Motion 参数化控制(推、拉、摇、移、升、降),是系列中运镜可控性最强的模型。适合对镜头语言有精确要求的导演型创作者。
Seedance 2.0 在氛围和光影渲染上表现突出,适合风景和环境类镜头。人物表现力不如 Kling 3.0。
综合对比
| 维度 | Wan2.2 | Kling 3.0 | Runway Gen-4.5 | Sora 2 | HunyuanVideo | Seedance 2.0 |
|---|---|---|---|---|---|---|
| 画质 | ★★★★ | ★★★★ | ★★★★☆ | ★★★★★ | ★★★★ | ★★★★ |
| 人物动作 | ★★★☆ | ★★★★★ | ★★★★ | ★★★★ | ★★★☆ | ★★★ |
| 运镜控制 | ★★★ | ★★★★ | ★★★★★ | ★★★ | ★★★ | ★★★☆ |
| 角色一致性保持 | ★★★★ | ★★★★ | ★★★★ | ★★☆ | ★★★☆ | ★★★ |
| 长镜头稳定性 | ★★★★ | ★★★★ | ★★★☆ | ★★★★★ | ★★★★ | ★★★★ |
| 成本 | 免费(本地) | 中等 | 较高 | 高 | 免费(本地) | 中等 |
| API 可用性 | 社区 API | 官方 API | 官方 API | 官方 API | 社区 API | 官方 API |
| img2v 支持 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 自定义角色 | ✅ LoRA 兼容 | ❌ | ❌ | ❌ | ✅ LoRA 兼容 | ❌ |
"角色一致性保持"衡量的是:给定同一张起始帧做 img2v,视频中角色面部在 5-10 秒内的漂移程度。Sora 2 评分低是因为它不支持 img2v 的角色锁定机制,只能靠 Prompt 描述角色。
三、运镜控制的工程实践
短剧不是 Demo——观众对镜头语言有隐性预期。好的运镜能把 AI 短剧从"技术展示"拉到"有质感的作品"。
各模型的运镜控制方式
Prompt 描述法(所有模型通用):在 Prompt 中用英文描述镜头运动。例如 camera slowly pushes in on the character's face 或 slow dolly out revealing the entire room。效果取决于模型对运镜指令的理解能力——Kling 和 Runway 最好,Wan 系列次之。
参数化控制(Runway Gen-4.5 独有):通过 Camera Motion 参数精确指定运镜类型和幅度,如 horizontal: -5(向左摇 5 个单位)、zoom: 3(推进 3 个单位)。这是运镜可控性最高的方案,但被锁定在 Runway 平台内。
ControlNet 引导(Wan2.2、HunyuanVideo 等开源模型):用 ControlNet Depth 序列引导相机运动——预先生成一组深度图序列模拟相机轨迹,让视频模型按照这个轨迹生成。灵活但配置复杂,适合有 ComfyUI 经验的团队。
短剧常用运镜与推荐模型
| 运镜 | 英文 Prompt | 适用场景 | 推荐模型 |
|---|---|---|---|
| 缓推 | slow push in |
悬疑揭秘、情绪聚焦 | Runway(参数精确)、Kling |
| 缓拉 | slow pull out |
开场建立、结尾释放 | Runway、Wan2.2 |
| 横摇 | slow pan left/right |
展示场景全貌 | Runway、Kling |
| 跟随 | tracking shot following the character |
行走、追逐 | Kling(人物动作最自然) |
| 固定 | static camera |
对话、特写 | 任意模型 |
| 俯拍 | high angle shot looking down |
孤独感、压迫感 | Sora 2(空间感最好) |
关键经验:AI 视频模型对"固定机位"和"缓慢推拉"的执行效果最好,对"快速运动"和"复杂轨迹"(如环绕、斯坦尼康)容易失控。分镜设计上多用固定和缓速,少用快切和复杂运镜。
四、长镜头稳定性:短剧的核心挑战
当前视频模型的单次生成时长在 5-10 秒。一个 3 分钟的短剧需要 20-40 个镜头拼接。长镜头(>10 秒)的挑战是角色漂移——视频越长,角色越"不像自己"。
为什么会漂移
扩散模型的生成是逐步去噪的过程,每一步都会引入微小的偏差。这些偏差在 5 秒内几乎不可察觉,但 10 秒后累积到肉眼可见,20 秒后角色可能"换了一个人"。DiT 架构比 U-Net 好但没有根本解决。
工程应对策略
分段生成 + 首帧锚定:把长镜头拆成 5 秒的片段,每段的首帧都用同一张角色参考图做 img2v。段间用帧插值(RIFE)做平滑过渡。这是最稳定的生产方案。
锚定帧注入:在生成过程中每隔 N 帧重新注入角色参考图的特征约束。部分模型和 ComfyUI 插件支持这种"中间锚定"机制。效果比纯首帧锚定好,但工程复杂度更高。
后处理修正:用 Face Swap 在后处理阶段统一面部。对于每一帧,用 ArcFace 与参考图比对相似度,低于阈值(如 0.65)的帧自动触发 Face Swap 修正。这是"兜底方案"——效果不完美(Face Swap 有时会引入新的瑕疵),但覆盖率高。
分镜规避:最现实的策略。把需要"长时间看同一个角色"的场景拆成多个短镜头(3-5 秒),通过剪辑节奏(正反打、切不同角度)来避免长镜头。好的分镜设计比任何后处理技术都有效。
五、成本模型
视频生成的成本由三部分构成:API/算力费用、重试成本、人工审核成本。
各模型单次生成成本
| 模型 | 5 秒视频成本 | 10 秒视频成本 | 计费方式 |
|---|---|---|---|
| Wan2.2(本地) | ¥0(电费 ~¥0.1) | ¥0(电费 ~¥0.2) | 本地 GPU |
| Kling 3.0 | ~¥0.5-1.0 | ~¥1.0-2.0 | 按量付费 |
| Runway Gen-4.5 | ~$0.25 | ~$0.50 | Credits |
| Sora 2 | ~$0.50 | ~$1.00 | Credits |
实际生产成本
实际生产中每个镜头平均需要 3-5 次尝试才能得到满意的结果。加上重试和人工筛选的时间成本,实际生产成本约为单次成本的 3-5 倍。
一个 3 分钟短剧(约 30 个镜头)的典型成本:
| 方案 | 视频生成费用 | 人工审核时间 | 总计 |
|---|---|---|---|
| 全本地(Wan2.2) | 电费 ~¥10 | 4-6 小时 | ¥10 + 时间 |
| 全商业(Kling 3.0) | ¥60-150 | 2-4 小时 | ¥60-150 + 时间 |
| 混合(Wan2.2 + Kling) | ¥30-80 | 3-5 小时 | ¥30-80 + 时间 |
混合方案是多数独立创作者的选择:本地 Wan2.2 跑常规镜头(角色对话、简单动作),商业 API 跑高难度镜头(复杂运动、大场景、需要精确运镜的关键镜头)。
六、生产 Pipeline 集成方案
ComfyUI 集成(本地模型)
Wan2.1/2.2 和 HunyuanVideo 都有成熟的 ComfyUI 插件(comfyui-wan、comfyui-hunyuan-video)。典型工作流是:
- 起始帧生成:Flux + LoRA + IP-Adapter + ControlNet → 生成角色可控的静态帧
- 视频生成:起始帧 → Wan2.2 img2v 节点 → 5-10 秒视频
- 质量检测:ArcFace 面部相似度检测 → 低于阈值的帧标记
- 后处理:Face Swap 修正标记帧 → 帧插值平滑 → 超分辨率
整个工作流可以保存为 ComfyUI workflow JSON,在团队内复用。批量处理时用 ComfyUI 的 Queue 模式逐镜头执行。
API 集成(商业模型)
Kling 3.0 和 Runway Gen-4.5 都提供了 REST API。集成要点:
异步生成:视频生成耗时 30 秒到 3 分钟,必须用异步模式。提交任务 → 拿到 task_id → 轮询状态 → 下载结果。
重试与降级:API 可能因排队、超时或内容审核失败。建议设计三级降级:首选 Kling 3.0 → 降级到 Runway → 降级到本地 Wan2.2。
缓存与去重:同一场景多次尝试时,起始帧可能相同——对起始帧做 hash,避免重复上传。成功生成的结果按 scene_id + take_number 归档。
多模型混合策略
实际生产中不必拘泥于单一模型。推荐的分工方式:
| 镜头类型 | 推荐模型 | 原因 |
|---|---|---|
| 角色对话特写 | Wan2.2(本地) | 起始帧控制精确,免费 |
| 角色行走/动作 | Kling 3.0 | 人物运动自然度最好 |
| 需要精确运镜 | Runway Gen-4.5 | 参数化运镜控制 |
| 空镜头/环境 | Sora 2 或 Seedance 2.0 | 画质和氛围感最好 |
| 特效/转场 | txt2v(任意模型) | 不涉及角色一致性 |
这种"按需选模型"的策略能节省成本。代价是工程复杂度更高——需要一个统一的调度层管理多个模型的 API/本地推理,以及统一的产物格式(分辨率、帧率、色彩空间)。这正是第 5 篇《角色引擎》中多模态任务调度系统要解决的问题。
七、选型决策树
面对这么多选项,用一棵决策树简化选型:
你有 GPU 吗?
如果有(24GB+ VRAM):Wan2.2 14B 作为主力,高难度镜头用 Kling 3.0 API 补充。这是成本最低的方案。
如果没有或只有消费级 GPU(8-12GB):Wan2.2 1.3B 做简单镜头,Kling 3.0 做主力。预算充足时用 Runway Gen-4.5 做精确运镜镜头。
你的核心需求是什么?
角色一致性优先 → Wan2.2(支持 LoRA)+ Face Swap 后处理
运镜精确控制优先 → Runway Gen-4.5
人物动作自然度优先 → Kling 3.0
画质天花板 → Sora 2(但放弃角色一致性控制)
你的生产规模是什么?
个人创作者(月产 1-2 部)→ Wan2.2 本地 + 少量 API
小团队(月产 5-10 部)→ Kling 3.0 API 为主 + Wan2.2 兜底
规模化生产(月产 50+ 部)→ 需要自建调度系统,多模型混合,参见系列第 5 篇
八、展望:接下来会发生什么
视频生成模型正在以每 3-6 个月一个代际的速度迭代。几个值得关注的方向:
端到端角色控制:当前的"先生成图、再做视频"的两步流程本质上是因为视频模型无法直接控制角色身份。一旦视频模型原生支持 LoRA 或 IP-Adapter 级别的身份控制,整个 Pipeline 会大幅简化。Wan 系列已经在这个方向上了。
音视频同步生成:Sora 2 已经支持同步音频。当其他模型跟进后,配音流水线的一部分(音效、环境音)可能被前置到视频生成阶段。
实时推理:StreamDiffusion 等流式生成方案正在探索中。一旦 img2v 的延迟降到 1 秒以内,实时交互式视频(参见系列第 7 篇)将从理论变为现实。
成本下降:Wan2.2 1.3B 已经把本地 img2v 的门槛降到了 8GB VRAM。商业 API 的价格也在持续下降。预计一年内,单个 5 秒视频的 API 成本将降到 ¥0.1 以下。
本文是「AI 短剧工程实践」系列的视频生成专题篇。 下一篇:角色生产流水线 — 四层 Pipeline 实战