AI 短剧工程实践:视频生成模型选型与实战

本文是「AI 短剧工程实践」系列的视频生成专题篇:

  1. 从剧本到成片的全流程 — 端到端全景概览
  2. 人物一致性与技术选型 — 六条路径 + 决策矩阵
  3. 视频生成模型选型与实战 ← 本篇
  4. 角色生产流水线 — 四层 Pipeline 实战
  5. 从视频生成到角色引擎 — 应用层架构设计
  6. 全自动配音流水线 — 出海配音工程
  7. 实时交互式视频 — 前瞻探索

视频生成是整条 AI 短剧 Pipeline 中迭代最快、选型最痛的环节。2025 年下半年到 2026 年初,Sora 2、Wan2.2、Kling 3.0、Runway Gen-4.5 先后发布,格局再次洗牌。

本文从工程实战角度出发,回答三个问题:该用哪个模型?图生视频还是文生视频?怎么集成到生产 Pipeline 里?

一、两种模式:img2v vs txt2v

AI 短剧的视频生成有两种主要模式,适用场景完全不同。

图生视频(Image-to-Video, img2v)是短剧的主力模式。工作流是:先用 Flux/SDXL 生成一张起始帧,精确控制角色外观、表情、场景构图,然后让视频模型从这张图"动起来"。这种模式的核心优势是角色可控——起始帧里的人物已经通过 LoRA + IP-Adapter + ControlNet 保证了一致性,视频模型只需要负责"让它动"。

文生视频(Text-to-Video, txt2v)直接从文字描述生成视频,不需要起始帧。灵活但可控性差,因为视频模型需要"想象"角色长什么样——而这个"想象"在每次生成时都可能不一样。在短剧中,txt2v 主要用于不涉及角色一致性的镜头:空镜头、环境过场、特效片段。

实际生产中的比例大约是:img2v 占 70-80%(所有涉及角色的镜头),txt2v 占 20-30%(空镜头和过场)。

二、2026 年主流模型深度对比

开源阵营

Wan2.1 / Wan2.2(阿里通义)是当前开源 img2v 的标杆。Wan2.2 采用 MoE(Mixture-of-Experts)架构,将去噪过程按时间步分配给专门的 Expert,在不增加推理成本的前提下提升了有效容量。关键数据:1.3B 参数版本仅需 8GB VRAM,可在消费级 GPU(RTX 4060 以上)运行;14B 参数版本质量接近商业模型,需要 24GB+ VRAM。Wan2.1 还是首个同时支持中英文文字渲染的视频模型——可以直接在视频中生成包含文字的画面。

HunyuanVideo(腾讯混元)采用双流 Transformer 架构,文本和视频 token 先独立处理再融合,指令遵循能力和复杂场景构图优于 Wan2.1。缺点是社区生态不如 Wan 系列活跃,ComfyUI 插件的成熟度略逊。

商业阵营

Sora 2(OpenAI,2025 年 9 月发布)是当前画质天花板。核心突破是支持同步音频生成——视频自带匹配的音效和环境音,这在短剧空镜头制作中非常有用。缺点是 API 排队时间长、价格高、不支持自定义角色(无 LoRA 接口)。适合做不需要角色一致性的高质量镜头。

Kling 3.0(快手可灵)在人物动作自然度上是商业模型中最好的。特别擅长处理手部动作和表情微变化,而这正是其他模型最容易崩的地方。API 稳定、支持 img2v、可通过 Prompt 控制运镜,是短剧制作的核心生产力工具。

Runway Gen-4.5 的核心优势是运镜精确控制——支持 Camera Motion 参数化控制(推、拉、摇、移、升、降),是系列中运镜可控性最强的模型。适合对镜头语言有精确要求的导演型创作者。

Seedance 2.0 在氛围和光影渲染上表现突出,适合风景和环境类镜头。人物表现力不如 Kling 3.0。

综合对比

维度 Wan2.2 Kling 3.0 Runway Gen-4.5 Sora 2 HunyuanVideo Seedance 2.0
画质 ★★★★ ★★★★ ★★★★☆ ★★★★★ ★★★★ ★★★★
人物动作 ★★★☆ ★★★★★ ★★★★ ★★★★ ★★★☆ ★★★
运镜控制 ★★★ ★★★★ ★★★★★ ★★★ ★★★ ★★★☆
角色一致性保持 ★★★★ ★★★★ ★★★★ ★★☆ ★★★☆ ★★★
长镜头稳定性 ★★★★ ★★★★ ★★★☆ ★★★★★ ★★★★ ★★★★
成本 免费(本地) 中等 较高 免费(本地) 中等
API 可用性 社区 API 官方 API 官方 API 官方 API 社区 API 官方 API
img2v 支持
自定义角色 ✅ LoRA 兼容 ✅ LoRA 兼容

"角色一致性保持"衡量的是:给定同一张起始帧做 img2v,视频中角色面部在 5-10 秒内的漂移程度。Sora 2 评分低是因为它不支持 img2v 的角色锁定机制,只能靠 Prompt 描述角色。

三、运镜控制的工程实践

短剧不是 Demo——观众对镜头语言有隐性预期。好的运镜能把 AI 短剧从"技术展示"拉到"有质感的作品"。

各模型的运镜控制方式

Prompt 描述法(所有模型通用):在 Prompt 中用英文描述镜头运动。例如 camera slowly pushes in on the character's faceslow dolly out revealing the entire room。效果取决于模型对运镜指令的理解能力——Kling 和 Runway 最好,Wan 系列次之。

参数化控制(Runway Gen-4.5 独有):通过 Camera Motion 参数精确指定运镜类型和幅度,如 horizontal: -5(向左摇 5 个单位)、zoom: 3(推进 3 个单位)。这是运镜可控性最高的方案,但被锁定在 Runway 平台内。

ControlNet 引导(Wan2.2、HunyuanVideo 等开源模型):用 ControlNet Depth 序列引导相机运动——预先生成一组深度图序列模拟相机轨迹,让视频模型按照这个轨迹生成。灵活但配置复杂,适合有 ComfyUI 经验的团队。

短剧常用运镜与推荐模型

运镜 英文 Prompt 适用场景 推荐模型
缓推 slow push in 悬疑揭秘、情绪聚焦 Runway(参数精确)、Kling
缓拉 slow pull out 开场建立、结尾释放 Runway、Wan2.2
横摇 slow pan left/right 展示场景全貌 Runway、Kling
跟随 tracking shot following the character 行走、追逐 Kling(人物动作最自然)
固定 static camera 对话、特写 任意模型
俯拍 high angle shot looking down 孤独感、压迫感 Sora 2(空间感最好)

关键经验:AI 视频模型对"固定机位"和"缓慢推拉"的执行效果最好,对"快速运动"和"复杂轨迹"(如环绕、斯坦尼康)容易失控。分镜设计上多用固定和缓速,少用快切和复杂运镜。

四、长镜头稳定性:短剧的核心挑战

当前视频模型的单次生成时长在 5-10 秒。一个 3 分钟的短剧需要 20-40 个镜头拼接。长镜头(>10 秒)的挑战是角色漂移——视频越长,角色越"不像自己"。

为什么会漂移

扩散模型的生成是逐步去噪的过程,每一步都会引入微小的偏差。这些偏差在 5 秒内几乎不可察觉,但 10 秒后累积到肉眼可见,20 秒后角色可能"换了一个人"。DiT 架构比 U-Net 好但没有根本解决。

工程应对策略

分段生成 + 首帧锚定:把长镜头拆成 5 秒的片段,每段的首帧都用同一张角色参考图做 img2v。段间用帧插值(RIFE)做平滑过渡。这是最稳定的生产方案。

锚定帧注入:在生成过程中每隔 N 帧重新注入角色参考图的特征约束。部分模型和 ComfyUI 插件支持这种"中间锚定"机制。效果比纯首帧锚定好,但工程复杂度更高。

后处理修正:用 Face Swap 在后处理阶段统一面部。对于每一帧,用 ArcFace 与参考图比对相似度,低于阈值(如 0.65)的帧自动触发 Face Swap 修正。这是"兜底方案"——效果不完美(Face Swap 有时会引入新的瑕疵),但覆盖率高。

分镜规避:最现实的策略。把需要"长时间看同一个角色"的场景拆成多个短镜头(3-5 秒),通过剪辑节奏(正反打、切不同角度)来避免长镜头。好的分镜设计比任何后处理技术都有效。

五、成本模型

视频生成的成本由三部分构成:API/算力费用、重试成本、人工审核成本。

各模型单次生成成本

模型 5 秒视频成本 10 秒视频成本 计费方式
Wan2.2(本地) ¥0(电费 ~¥0.1) ¥0(电费 ~¥0.2) 本地 GPU
Kling 3.0 ~¥0.5-1.0 ~¥1.0-2.0 按量付费
Runway Gen-4.5 ~$0.25 ~$0.50 Credits
Sora 2 ~$0.50 ~$1.00 Credits

实际生产成本

实际生产中每个镜头平均需要 3-5 次尝试才能得到满意的结果。加上重试和人工筛选的时间成本,实际生产成本约为单次成本的 3-5 倍。

一个 3 分钟短剧(约 30 个镜头)的典型成本:

方案 视频生成费用 人工审核时间 总计
全本地(Wan2.2) 电费 ~¥10 4-6 小时 ¥10 + 时间
全商业(Kling 3.0) ¥60-150 2-4 小时 ¥60-150 + 时间
混合(Wan2.2 + Kling) ¥30-80 3-5 小时 ¥30-80 + 时间

混合方案是多数独立创作者的选择:本地 Wan2.2 跑常规镜头(角色对话、简单动作),商业 API 跑高难度镜头(复杂运动、大场景、需要精确运镜的关键镜头)。

六、生产 Pipeline 集成方案

ComfyUI 集成(本地模型)

Wan2.1/2.2 和 HunyuanVideo 都有成熟的 ComfyUI 插件(comfyui-wan、comfyui-hunyuan-video)。典型工作流是:

  1. 起始帧生成:Flux + LoRA + IP-Adapter + ControlNet → 生成角色可控的静态帧
  2. 视频生成:起始帧 → Wan2.2 img2v 节点 → 5-10 秒视频
  3. 质量检测:ArcFace 面部相似度检测 → 低于阈值的帧标记
  4. 后处理:Face Swap 修正标记帧 → 帧插值平滑 → 超分辨率

整个工作流可以保存为 ComfyUI workflow JSON,在团队内复用。批量处理时用 ComfyUI 的 Queue 模式逐镜头执行。

API 集成(商业模型)

Kling 3.0 和 Runway Gen-4.5 都提供了 REST API。集成要点:

异步生成:视频生成耗时 30 秒到 3 分钟,必须用异步模式。提交任务 → 拿到 task_id → 轮询状态 → 下载结果。

重试与降级:API 可能因排队、超时或内容审核失败。建议设计三级降级:首选 Kling 3.0 → 降级到 Runway → 降级到本地 Wan2.2。

缓存与去重:同一场景多次尝试时,起始帧可能相同——对起始帧做 hash,避免重复上传。成功生成的结果按 scene_id + take_number 归档。

多模型混合策略

实际生产中不必拘泥于单一模型。推荐的分工方式:

镜头类型 推荐模型 原因
角色对话特写 Wan2.2(本地) 起始帧控制精确,免费
角色行走/动作 Kling 3.0 人物运动自然度最好
需要精确运镜 Runway Gen-4.5 参数化运镜控制
空镜头/环境 Sora 2 或 Seedance 2.0 画质和氛围感最好
特效/转场 txt2v(任意模型) 不涉及角色一致性

这种"按需选模型"的策略能节省成本。代价是工程复杂度更高——需要一个统一的调度层管理多个模型的 API/本地推理,以及统一的产物格式(分辨率、帧率、色彩空间)。这正是第 5 篇《角色引擎》中多模态任务调度系统要解决的问题。

七、选型决策树

面对这么多选项,用一棵决策树简化选型:

你有 GPU 吗?

如果有(24GB+ VRAM):Wan2.2 14B 作为主力,高难度镜头用 Kling 3.0 API 补充。这是成本最低的方案。

如果没有或只有消费级 GPU(8-12GB):Wan2.2 1.3B 做简单镜头,Kling 3.0 做主力。预算充足时用 Runway Gen-4.5 做精确运镜镜头。

你的核心需求是什么?

角色一致性优先 → Wan2.2(支持 LoRA)+ Face Swap 后处理

运镜精确控制优先 → Runway Gen-4.5

人物动作自然度优先 → Kling 3.0

画质天花板 → Sora 2(但放弃角色一致性控制)

你的生产规模是什么?

个人创作者(月产 1-2 部)→ Wan2.2 本地 + 少量 API

小团队(月产 5-10 部)→ Kling 3.0 API 为主 + Wan2.2 兜底

规模化生产(月产 50+ 部)→ 需要自建调度系统,多模型混合,参见系列第 5 篇

八、展望:接下来会发生什么

视频生成模型正在以每 3-6 个月一个代际的速度迭代。几个值得关注的方向:

端到端角色控制:当前的"先生成图、再做视频"的两步流程本质上是因为视频模型无法直接控制角色身份。一旦视频模型原生支持 LoRA 或 IP-Adapter 级别的身份控制,整个 Pipeline 会大幅简化。Wan 系列已经在这个方向上了。

音视频同步生成:Sora 2 已经支持同步音频。当其他模型跟进后,配音流水线的一部分(音效、环境音)可能被前置到视频生成阶段。

实时推理:StreamDiffusion 等流式生成方案正在探索中。一旦 img2v 的延迟降到 1 秒以内,实时交互式视频(参见系列第 7 篇)将从理论变为现实。

成本下降:Wan2.2 1.3B 已经把本地 img2v 的门槛降到了 8GB VRAM。商业 API 的价格也在持续下降。预计一年内,单个 5 秒视频的 API 成本将降到 ¥0.1 以下。

本文是「AI 短剧工程实践」系列的视频生成专题篇。 下一篇:角色生产流水线 — 四层 Pipeline 实战

加载导航中...

评论