AI 短剧工程实践：视频生成模型选型与实战

本文是「AI 短剧工程实践」系列的视频生成专题篇：

从剧本到成片的全流程 — 端到端全景概览

人物一致性与技术选型 — 六条路径 + 决策矩阵

视频生成模型选型与实战 ← 本篇

角色生产流水线 — 四层 Pipeline 实战

从视频生成到角色引擎 — 应用层架构设计

全自动配音流水线 — 出海配音工程

实时交互式视频 — 前瞻探索

视频生成是整条 AI 短剧 Pipeline 中迭代最快、选型最痛的环节。2025 年下半年到 2026 年初，Sora 2、Wan2.2、Kling 3.0、Runway Gen-4.5 先后发布，格局再次洗牌。

本文从工程实战角度出发，回答三个问题：该用哪个模型？图生视频还是文生视频？怎么集成到生产 Pipeline 里？

一、两种模式：img2v vs txt2v

AI 短剧的视频生成有两种主要模式，适用场景完全不同。

图生视频（Image-to-Video, img2v）是短剧的主力模式。工作流是：先用 Flux/SDXL 生成一张起始帧，精确控制角色外观、表情、场景构图，然后让视频模型从这张图"动起来"。这种模式的核心优势是角色可控——起始帧里的人物已经通过 LoRA + IP-Adapter + ControlNet 保证了一致性，视频模型只需要负责"让它动"。

文生视频（Text-to-Video, txt2v）直接从文字描述生成视频，不需要起始帧。灵活但可控性差，因为视频模型需要"想象"角色长什么样——而这个"想象"在每次生成时都可能不一样。在短剧中，txt2v 主要用于不涉及角色一致性的镜头：空镜头、环境过场、特效片段。

实际生产中的比例大约是：img2v 占 70-80%（所有涉及角色的镜头），txt2v 占 20-30%（空镜头和过场）。

二、2026 年主流模型深度对比

开源阵营

Wan2.1 / Wan2.2（阿里通义）是当前开源 img2v 的标杆。Wan2.2 采用 MoE（Mixture-of-Experts）架构，将去噪过程按时间步分配给专门的 Expert，在不增加推理成本的前提下提升了有效容量。关键数据：1.3B 参数版本仅需 8GB VRAM，可在消费级 GPU（RTX 4060 以上）运行；14B 参数版本质量接近商业模型，需要 24GB+ VRAM。Wan2.1 还是首个同时支持中英文文字渲染的视频模型——可以直接在视频中生成包含文字的画面。

HunyuanVideo（腾讯混元）采用双流 Transformer 架构，文本和视频 token 先独立处理再融合，指令遵循能力和复杂场景构图优于 Wan2.1。缺点是社区生态不如 Wan 系列活跃，ComfyUI 插件的成熟度略逊。

商业阵营

Sora 2（OpenAI，2025 年 9 月发布）是当前画质天花板。核心突破是支持同步音频生成——视频自带匹配的音效和环境音，这在短剧空镜头制作中非常有用。缺点是 API 排队时间长、价格高、不支持自定义角色（无 LoRA 接口）。适合做不需要角色一致性的高质量镜头。

Kling 3.0（快手可灵）在人物动作自然度上是商业模型中最好的。特别擅长处理手部动作和表情微变化，而这正是其他模型最容易崩的地方。API 稳定、支持 img2v、可通过 Prompt 控制运镜，是短剧制作的核心生产力工具。

Runway Gen-4.5 的核心优势是运镜精确控制——支持 Camera Motion 参数化控制（推、拉、摇、移、升、降），是系列中运镜可控性最强的模型。适合对镜头语言有精确要求的导演型创作者。

Seedance 2.0 在氛围和光影渲染上表现突出，适合风景和环境类镜头。人物表现力不如 Kling 3.0。

综合对比

维度	Wan2.2	Kling 3.0	Runway Gen-4.5	Sora 2	HunyuanVideo	Seedance 2.0
画质	★★★★	★★★★	★★★★☆	★★★★★	★★★★	★★★★
人物动作	★★★☆	★★★★★	★★★★	★★★★	★★★☆	★★★
运镜控制	★★★	★★★★	★★★★★	★★★	★★★	★★★☆
角色一致性保持	★★★★	★★★★	★★★★	★★☆	★★★☆	★★★
长镜头稳定性	★★★★	★★★★	★★★☆	★★★★★	★★★★	★★★★
成本	免费（本地）	中等	较高	高	免费（本地）	中等
API 可用性	社区 API	官方 API	官方 API	官方 API	社区 API	官方 API
img2v 支持	✅	✅	✅	✅	✅	✅
自定义角色	✅ LoRA 兼容	❌	❌	❌	✅ LoRA 兼容	❌

"角色一致性保持"衡量的是：给定同一张起始帧做 img2v，视频中角色面部在 5-10 秒内的漂移程度。Sora 2 评分低是因为它不支持 img2v 的角色锁定机制，只能靠 Prompt 描述角色。

三、运镜控制的工程实践

短剧不是 Demo——观众对镜头语言有隐性预期。好的运镜能把 AI 短剧从"技术展示"拉到"有质感的作品"。

各模型的运镜控制方式

Prompt 描述法（所有模型通用）：在 Prompt 中用英文描述镜头运动。例如 camera slowly pushes in on the character's face 或 slow dolly out revealing the entire room。效果取决于模型对运镜指令的理解能力——Kling 和 Runway 最好，Wan 系列次之。

参数化控制（Runway Gen-4.5 独有）：通过 Camera Motion 参数精确指定运镜类型和幅度，如 horizontal: -5（向左摇 5 个单位）、zoom: 3（推进 3 个单位）。这是运镜可控性最高的方案，但被锁定在 Runway 平台内。

ControlNet 引导（Wan2.2、HunyuanVideo 等开源模型）：用 ControlNet Depth 序列引导相机运动——预先生成一组深度图序列模拟相机轨迹，让视频模型按照这个轨迹生成。灵活但配置复杂，适合有 ComfyUI 经验的团队。

短剧常用运镜与推荐模型

运镜	英文 Prompt	适用场景	推荐模型
缓推	`slow push in`	悬疑揭秘、情绪聚焦	Runway（参数精确）、Kling
缓拉	`slow pull out`	开场建立、结尾释放	Runway、Wan2.2
横摇	`slow pan left/right`	展示场景全貌	Runway、Kling
跟随	`tracking shot following the character`	行走、追逐	Kling（人物动作最自然）
固定	`static camera`	对话、特写	任意模型
俯拍	`high angle shot looking down`	孤独感、压迫感	Sora 2（空间感最好）

关键经验：AI 视频模型对"固定机位"和"缓慢推拉"的执行效果最好，对"快速运动"和"复杂轨迹"（如环绕、斯坦尼康）容易失控。分镜设计上多用固定和缓速，少用快切和复杂运镜。

四、长镜头稳定性：短剧的核心挑战

当前视频模型的单次生成时长在 5-10 秒。一个 3 分钟的短剧需要 20-40 个镜头拼接。长镜头（>10 秒）的挑战是角色漂移——视频越长，角色越"不像自己"。

为什么会漂移

扩散模型的生成是逐步去噪的过程，每一步都会引入微小的偏差。这些偏差在 5 秒内几乎不可察觉，但 10 秒后累积到肉眼可见，20 秒后角色可能"换了一个人"。DiT 架构比 U-Net 好但没有根本解决。

工程应对策略

分段生成 + 首帧锚定：把长镜头拆成 5 秒的片段，每段的首帧都用同一张角色参考图做 img2v。段间用帧插值（RIFE）做平滑过渡。这是最稳定的生产方案。

锚定帧注入：在生成过程中每隔 N 帧重新注入角色参考图的特征约束。部分模型和 ComfyUI 插件支持这种"中间锚定"机制。效果比纯首帧锚定好，但工程复杂度更高。

后处理修正：用 Face Swap 在后处理阶段统一面部。对于每一帧，用 ArcFace 与参考图比对相似度，低于阈值（如 0.65）的帧自动触发 Face Swap 修正。这是"兜底方案"——效果不完美（Face Swap 有时会引入新的瑕疵），但覆盖率高。

分镜规避：最现实的策略。把需要"长时间看同一个角色"的场景拆成多个短镜头（3-5 秒），通过剪辑节奏（正反打、切不同角度）来避免长镜头。好的分镜设计比任何后处理技术都有效。

五、成本模型

视频生成的成本由三部分构成：API/算力费用、重试成本、人工审核成本。

各模型单次生成成本

模型	5 秒视频成本	10 秒视频成本	计费方式
Wan2.2（本地）	¥0（电费 ~¥0.1）	¥0（电费 ~¥0.2）	本地 GPU
Kling 3.0	~¥0.5-1.0	~¥1.0-2.0	按量付费
Runway Gen-4.5	~$0.25	~$0.50	Credits
Sora 2	~$0.50	~$1.00	Credits

实际生产成本

实际生产中每个镜头平均需要 3-5 次尝试才能得到满意的结果。加上重试和人工筛选的时间成本，实际生产成本约为单次成本的 3-5 倍。

一个 3 分钟短剧（约 30 个镜头）的典型成本：

方案	视频生成费用	人工审核时间	总计
全本地（Wan2.2）	电费 ~¥10	4-6 小时	¥10 + 时间
全商业（Kling 3.0）	¥60-150	2-4 小时	¥60-150 + 时间
混合（Wan2.2 + Kling）	¥30-80	3-5 小时	¥30-80 + 时间

混合方案是多数独立创作者的选择：本地 Wan2.2 跑常规镜头（角色对话、简单动作），商业 API 跑高难度镜头（复杂运动、大场景、需要精确运镜的关键镜头）。

六、生产 Pipeline 集成方案

ComfyUI 集成（本地模型）

Wan2.1/2.2 和 HunyuanVideo 都有成熟的 ComfyUI 插件（comfyui-wan、comfyui-hunyuan-video）。典型工作流是：

起始帧生成：Flux + LoRA + IP-Adapter + ControlNet → 生成角色可控的静态帧
视频生成：起始帧 → Wan2.2 img2v 节点 → 5-10 秒视频
质量检测：ArcFace 面部相似度检测 → 低于阈值的帧标记
后处理：Face Swap 修正标记帧 → 帧插值平滑 → 超分辨率

整个工作流可以保存为 ComfyUI workflow JSON，在团队内复用。批量处理时用 ComfyUI 的 Queue 模式逐镜头执行。

API 集成（商业模型）

Kling 3.0 和 Runway Gen-4.5 都提供了 REST API。集成要点：

异步生成：视频生成耗时 30 秒到 3 分钟，必须用异步模式。提交任务 → 拿到 task_id → 轮询状态 → 下载结果。

重试与降级：API 可能因排队、超时或内容审核失败。建议设计三级降级：首选 Kling 3.0 → 降级到 Runway → 降级到本地 Wan2.2。

缓存与去重：同一场景多次尝试时，起始帧可能相同——对起始帧做 hash，避免重复上传。成功生成的结果按 scene_id + take_number 归档。

多模型混合策略

实际生产中不必拘泥于单一模型。推荐的分工方式：

镜头类型	推荐模型	原因
角色对话特写	Wan2.2（本地）	起始帧控制精确，免费
角色行走/动作	Kling 3.0	人物运动自然度最好
需要精确运镜	Runway Gen-4.5	参数化运镜控制
空镜头/环境	Sora 2 或 Seedance 2.0	画质和氛围感最好
特效/转场	txt2v（任意模型）	不涉及角色一致性

这种"按需选模型"的策略能节省成本。代价是工程复杂度更高——需要一个统一的调度层管理多个模型的 API/本地推理，以及统一的产物格式（分辨率、帧率、色彩空间）。这正是第 5 篇《角色引擎》中多模态任务调度系统要解决的问题。

七、选型决策树

面对这么多选项，用一棵决策树简化选型：

你有 GPU 吗？

如果有（24GB+ VRAM）：Wan2.2 14B 作为主力，高难度镜头用 Kling 3.0 API 补充。这是成本最低的方案。

如果没有或只有消费级 GPU（8-12GB）：Wan2.2 1.3B 做简单镜头，Kling 3.0 做主力。预算充足时用 Runway Gen-4.5 做精确运镜镜头。

你的核心需求是什么？

角色一致性优先 → Wan2.2（支持 LoRA）+ Face Swap 后处理

运镜精确控制优先 → Runway Gen-4.5

人物动作自然度优先 → Kling 3.0

画质天花板 → Sora 2（但放弃角色一致性控制）

你的生产规模是什么？

个人创作者（月产 1-2 部）→ Wan2.2 本地 + 少量 API

小团队（月产 5-10 部）→ Kling 3.0 API 为主 + Wan2.2 兜底

规模化生产（月产 50+ 部）→ 需要自建调度系统，多模型混合，参见系列第 5 篇

八、展望：接下来会发生什么

视频生成模型正在以每 3-6 个月一个代际的速度迭代。几个值得关注的方向：

端到端角色控制：当前的"先生成图、再做视频"的两步流程本质上是因为视频模型无法直接控制角色身份。一旦视频模型原生支持 LoRA 或 IP-Adapter 级别的身份控制，整个 Pipeline 会大幅简化。Wan 系列已经在这个方向上了。

音视频同步生成：Sora 2 已经支持同步音频。当其他模型跟进后，配音流水线的一部分（音效、环境音）可能被前置到视频生成阶段。

实时推理：StreamDiffusion 等流式生成方案正在探索中。一旦 img2v 的延迟降到 1 秒以内，实时交互式视频（参见系列第 7 篇）将从理论变为现实。

成本下降：Wan2.2 1.3B 已经把本地 img2v 的门槛降到了 8GB VRAM。商业 API 的价格也在持续下降。预计一年内，单个 5 秒视频的 API 成本将降到 ¥0.1 以下。

本文是「AI 短剧工程实践」系列的视频生成专题篇。 下一篇：角色生产流水线 — 四层 Pipeline 实战