做广告时,“角色一致性”不是审美偏好,而是品牌控制需求。你的代言人只要在不同变体里脸型、发型、妆容、穿搭细节漂一点,观众就很难把它们当成同一条 campaign。团队通常会用“多跑几次挑最像的”来补救,但那是靠产量赌概率,不是靠流程获得控制。
这篇文章讲的是把一致性角色广告当成工作流来做。目标不是做出一条完美片段,而是做出一套系统:你能稳定地产出 10–100 条变体(不同 hook、不同 CTA、不同语言、不同场景),但镜头里的“这个人”始终是同一个。适用范围:截至 2026-02,聚焦短视频投放的变体生产,而不是长篇叙事。

先给结论:一致性是资产问题,不是提示词问题
如果你只靠 prompt,模型每次都会重新“解释这个人长什么样”,因为它的优化目标是把场景做得合理,而不是把身份保持不变。更稳的路径是把身份变成显式资产:一套参考图(最好是多角度参考表)加上一段“不可变规格”(脸部结构、发型特征、标志性穿搭元素)。当身份被放到上游,变体就可以放到下游,变化才不会长到脸上。
这也是为什么工作流适合广告生产:它把“一次跑通”变成“可复用系统”。
为什么角色会漂(以及“请保持一致”为什么没用)
角色漂移的本质是变量叠加。每次生成都有随机性,而你每次换场景、换镜头、换动作,都在给模型新的自由度去重塑脸部结构与服装细节。没有身份锚点时,模型会把这些当成可变项。
漂移一开始往往很细:下颌角略变、眼线厚度略变、刘海分缝换了。但当你把 8 个变体放在一起看,这些细微变化会变得很明显,整套广告像是 8 个不同博主在说话。
如果你的目标就是变体生产,那你应该默认漂移会发生,并在流程上把它压下去,而不是试图用更长的 prompt “说服”模型。
工作流结构:身份在上游,变体在下游
一个可投放的一致性角色工作流,最容易用“三层结构”理解。
第一层是身份:参考图/参考表,加上“不要变”的规格(脸部结构、发型签名、标志性服装元素)。这层是整个 campaign 复用的资产。
第二层是信息与结构:脚本、hook 模式、CTA、字幕样式、节奏。这层是你主动做变体的地方。
第三层是渲染:场景、镜头、动作与导出规范(竖屏、安全边距)。这层会随平台变化,但不应该改变身份。
它的生产优势是可排错:某个变体漂了,你只需要用更强的身份约束重跑渲染层,而不是把整条创意推倒重来。
从“已经为一致性优化过”的模板开始
OpenCreator 的一致性角色广告模板就是为投放变体问题设计的:同一个代言人 + 快速迭代变体。
从这里开始: 一致性角色广告模板。
如果你更想用“资产化”的方式把身份做得更牢,建议先做角色参考表,再把它复用到下游广告工作流里:
AI 角色参考表(Character Reference Sheet)指南。
先标准化什么(让变体看起来像一个 campaign)
很多团队会试图把所有东西都标准化,最后得到一个僵硬模板,既不灵活也不高转化。更有效的方法是只标准化那些真正决定识别度与效率的部分。
先标准化身份,再标准化字幕与导出规格,最后再标准化变体结构(hook、证明、CTA)。场景与镜头可以变化得更自由,只要它们不逼模型重新捏一张脸。
如果你反过来做(先统一场景,再去追身份一致),你往往会得到一组“画面很漂亮但人不一样”的素材。
一致性仍然不稳时怎么修(不要靠“跑 200 次”)
如果身份仍然漂,通常意味着你的锚点太弱,而你引入的变化太多。第一个修法是减少自由度:先保持同一套穿搭与相近的取景,尽量让光线与镜头语法一致。第二个修法是让身份更显式:用多角度参考表,而不是只给一张正脸。第三个修法是把变化局部化:不要在同一次迭代里同时换脚本、换场景、换运镜。
一个非常实用的生产习惯是按批次做变体,每一批只变一个层:先做文案变体(场景不变),再做场景变体(文案不变),再做运镜变体。这样排错就像受控实验,而不是猜谜游戏。
相关:一致性不止是“长得像”,还包括“动得像”
静态一致性已经难,视频一致性更难,因为漂移会在帧间发生。如果你要的不只是“同一张脸”,还要“同一种动作节奏”,把动作也当成资产会更稳:用参考表演去复用节奏,而不是每次都让模型从零发明动作。
动作复用可以从这个原子开始: Kling Motion Control(动作迁移)。镜头结构与一致性则适合用分镜去承载: 同场景多机位 / 多镜头分镜工作流。
FAQ
一致性主要取决于模型选择吗?
模型重要,但大多数漂移是流程问题。没有身份资产与稳定约束,再强的模型在场景与动作变化时也会漂。
一张正脸够吗?还是必须做参考表?
单条视频一张正脸可能够,但做变体时建议用参考表。多角度参考能减少歧义,让模型更难“自由发挥”脸部结构。
做变体时先变什么最稳?
先变文案(hook/CTA),身份与场景先固定;再变场景;最后再变运镜。一次改太多层会让漂移难以定位。
场景变化很大时,怎么保持 campaign 的统一感?
把代言人身份锁住,并统一字幕与导出规格。这两件事会在跨场景时提供识别度与统一感。








