AI 短剧工程实践：系列导读

这个系列源于一个实际项目：用 AIGC 技术做短剧出海。从第一天写 Prompt 生成第一帧画面，到跑通一条从剧本到成片的自动化流水线，再到尝试让观众和视频实时对话——整个过程中踩过的坑、做过的选型、设计过的架构，都沉淀在了这七篇文章里。

每篇文章独立可读，但它们之间有明确的层次关系。下面这张图展示了系列的整体结构：

系列全景图

各篇速览

① 从剧本到成片的全流程：系列总纲。从编剧、分镜、视频生成、角色一致性、后期修复到配音发布，走一遍完整链路。适合先读这篇建立全局认知，再按兴趣深入专题。

② 人物一致性与技术选型：AI 短剧的核心工程难题。拆解 LoRA 训练、IP-Adapter、Face Swap、ControlNet、Reference-Only、角色 LoRA 六条路径的原理和适用场景，给出面向短剧的决策矩阵和 2026 年的"多槽解耦"最佳实践。这是角色层的起点——先想清楚"用什么技术保持人物一致"，后面的流水线和引擎才有地基。

③ 视频生成模型选型与实战：Pipeline 中变化最快的环节。深度对比 Wan2.2、Sora 2、Kling 3.0、Runway Gen-4.5、HunyuanVideo 等 2026 年主流模型在画质、运镜控制、角色一致性保持、长镜头稳定性和成本五个维度的表现，给出 img2v vs txt2v 策略和多模型混合生产方案。

④ 角色生产流水线：把第②篇的选型结论落地成一条可执行的 Pipeline。逐层拆解视觉层（LoRA + IP-Adapter + ControlNet）、表演层（LivePortrait）、音频层（声纹克隆 + TTS）、对齐层（Lip-sync）的构建方法，附完整技术栈选择和成本估算。

⑤ 从视频生成到角色引擎：从"能跑"到"能管"。当角色超过三个、剧情超过十场，靠手动管理就扛不住了。这篇设计角色实体注册表、世界状态管理、结构化剧本中间件和多模态任务调度系统——本质上是给 AI 短剧搭一个应用层的"游戏引擎"。

⑥ 全自动配音流水线：短剧出海的关键瓶颈。人工配音单集几千块，AI 配音单集 ¥0.3~0.5。这篇记录一套实际跑通的全自动流水线：ASR → 说话人分离 → 翻译 → TTS → 混音，从 SSOT 驱动的架构设计到增量执行的成本控制，完整拆解规模化生产的工程路径。

⑦ 实时交互式视频：从看视频到和视频对话：系列的前沿探索篇。视频正在从播放媒介变成交互界面。这篇从技术架构、工程实践和商业闭环三个维度，拆解 AI 交互式视频的核心 Pipeline、四条技术路线、六大技术难点和落地路径。

怎么读

不同背景的读者可以选择不同的路线：

想快速了解全貌，读第①篇就够了。它覆盖了端到端流程，各环节点到即止，附有专题篇链接供深入。

想深入角色技术，按 ① → ② → ④ → ⑤ 的顺序读。从全局认知到技术选型，再到流水线实现，最后到系统架构，层层递进。

想搞清楚视频模型怎么选，读 ① → ③。第③篇是独立的模型选型指南，覆盖 2026 年所有主流模型。

想解决出海配音问题，读 ① → ⑥。第⑥篇是独立的工程实战，了解全貌后可以直接跳过来。

想探索交互视频方向，读 ① → ⑦。第⑦篇讨论的是 AIGC 视频的下一步——从单向播放到双向交互。

每篇文章底部都有系列导航，可以随时跳转到相邻篇目。

各篇速览

怎么读

评论