从「写一段视频」到「导演级指令」：AI视频Prompt系统进化教程

slack · 2026 年3 月 10 日 22:08

从「写一段视频」到「导演级指令」：AI视频Prompt系统进化教程

同样一句「一个女人在走路」，扔给Sora和扔给一个懂镜头语言的导演，结果差距是降维打击级别的。

我最近系统测了6款主流AI视频工具，同一个场景用不同质量的Prompt反复生成，结论很直接：用结构化Prompt的成功率能稳定在90%以上，而随手写一句话的成功率通常低于60%——这不是玄学，是因为AI视频模型本质上在执行「视觉导演指令」，而不是在「理解意图」。

这篇文章把我摸索出来的SCAMO框架和镜头语言系统整理出来，从原理到实操，直接能用。

一、先说清楚问题出在哪里

绝大多数人第一次用AI视频工具，都会这样写Prompt：

「一个女人在走路」

结果生成出来：画面模糊、角度奇怪、动作僵硬、光线平淡，像2019年的早期AI作品。

然后他们会觉得是工具不行。

但如果换成这样写：

「[S] 穿黑色西装的职业女性，35岁，短发利落 [C] 清晨玻璃幕墙写字楼大堂，自然光从落地窗斜射进来 [A] 快步走向电梯，皮鞋踩在大理石地板发出清脆声响 [M] 侧面低角度跟随镜头，轻微手持抖动，浅景深 [O] 4K电影感，冷色调，24fps，Alexa摄影机风格」

生成出来的是另一个世界的东西——光线有层次，动作有节奏，镜头有叙事感。

差距的根源不是工具，是指令质量。

AI视频模型的工作逻辑是：把文字指令翻译成帧序列。翻译的质量取决于指令的精确度。你给的信息越模糊，模型越容易「自由发挥」——而AI的自由发挥通常是用训练数据里最平均的结果来填充，这就是为什么随手写的Prompt总是出「平均脸」。

二、SCAMO框架：导演级指令的结构

SCAMO是目前AI视频Prompt工程里认可度最高的结构框架，覆盖了Kling、Sora、Veo、Runway、Pika等主流平台，框架包含五个维度：

字母	含义	控制内容
S	Subject（主体）	是谁/是什么
C	Context（情境）	在哪里/什么环境
A	Action（动作）	在做什么
M	Movement（运镜）	镜头怎么动
O	Output（输出）	技术规格/风格

每个维度单独看都不复杂，但组合起来之后，AI模型获得的信息密度会上一个台阶。下面逐层拆解。

S — Subject（主体）：不是「描述」，是「定义」

很多人在写主体的时候犯的错误是「描述感受」而不是「定义参数」。

差的写法：「一个很漂亮的女人」——「漂亮」是主观判断，AI不知道怎么处理。

好的写法：「35岁亚裔女性，肩长黑发，高颧骨，穿深蓝色商务套装，白色衬衫，细跟高跟鞋」——每个词都是可执行的视觉参数。

主体描写的核心原则：年龄 + 外貌特征 + 着装细节，三要素缺一不可。如果是物体，换成：材质 + 尺寸 + 状态。

进阶技巧：加入情绪状态，但要具体化。「她有点紧张」→「她的嘴角微微绷着，目光直视前方，走路时肩膀稍微前倾」。把情绪翻译成可见的肢体语言，AI才能执行。

C — Context（情境）：光线是最重要的变量

很多人写情境只写地点，但地点只是情境的一半，另一半是光线条件。

「在咖啡馆」和「在温哥华唐人街的老式咖啡馆，下午四点，橙色斜阳从西侧窗户射入，照在木质台面上形成长条形光影」，这两个场景AI生成出来的情绪感是完全不同的。

情境的完整结构：地点 + 时间（一天中的时刻）+ 光线来源和方向 + 环境细节（最多2-3个）

时间段对光线的影响非常大，AI视频模型对以下几个时间段都有比较强的训练数据：

清晨（蓝调时刻，5:30-6:30）：冷蓝色调，柔和漫射光
黄金时间（日落前1小时）：橙金色暖光，长影子
正午（11:00-13:00）：硬光，强阴影，高对比
夜间（21:00之后）：人工光源主导，高对比，局部照明

把时间段写具体，不要写「白天」或「晚上」。

A — Action（动作）：动词精确到肌肉群

这是很多人写得最粗糙的部分，也是导致视频「看起来像在演戏」的主要原因。

「她在喝咖啡」这个动作，AI会生成一个最标准的喝咖啡姿势——通用、平淡、无个性。

但如果写成：「她双手捧着杯子，低头轻嗅，然后用右手的食指轻轻擦了下嘴唇」——AI生成的动作立刻有了细节感和人物性格。

好的动作描写原则：主动作 + 伴随微动作 + 节奏感

主动作：核心在做的事（走路、说话、工作）
伴随微动作：身体其他部位的小动作（手、眼神、头部）
节奏感：快慢、停顿、呼吸节奏

例子：「她快步穿过走廊（主动作），左手握着文件夹紧贴身侧，右手边走边整理刘海（伴随微动作），走到拐角处短暂停顿后继续前行（节奏感）」

M — Movement（运镜）：这是导演语言的核心

这个部分是区分普通用户和进阶用户的分水岭。绝大多数人在写Prompt时完全忽略运镜，默认AI自己决定——而AI的默认选择通常是最保守的固定镜头。

镜头运动基础类型：

推镜（Push in / Dolly in）：镜头向主体靠近，产生「靠近感」，适合表现情绪变化、揭示细节。经典用法：人物做出重要决定前的面部特写推进。

拉镜（Pull out / Dolly out）：镜头远离主体，产生「疏离感」或「全局感」，适合结尾或展示环境规模。

横移（Tracking / Pan）：镜头横向跟随主体移动，产生「旅途感」，适合行走场景、展示空间。

旋转（Orbit / Arc shot）：围绕主体旋转，产生「展示感」，适合产品展示或英雄时刻。

手持（Handheld）：轻微晃动，产生「真实感」，适合纪录片风格、紧张场景。

升降镜头（Crane/Tilt up/down）：镜头上下移动，适合揭示和发现感。

**实操技巧：**每个场景选择一种主运镜，配合一个副运镜就够了。多了会让AI混乱。

例如：「侧面低角度跟随镜头（主），轻微手持抖动（副）」——简单清晰，AI能精确执行。

镜头高度/角度也是关键参数：

低角度（Low angle）：仰视，让主体显得强势、有力
平视（Eye level）：最自然，纪录感
高角度（High angle）：俯视，让主体显得渺小、脆弱
鸟瞰（Bird’s eye / Top down）：正上方俯视，展示全局

在Prompt里加上角度描述，比如「膝盖高度的低角度跟随」，能让镜头语言完全不同。

O — Output（输出）：技术参数决定质感

这个部分大多数人知道要写，但写得不够精确。

常见的输出参数：

分辨率：4K、1080p、8K（部分工具支持）

帧率：

24fps：电影感，略有运动模糊，质感高级
30fps：电视/纪录片感，真实感更强
60fps：高帧率，运动流畅，适合体育/动作场景

色调风格：

电影感（Cinematic）：高对比，微调色，通常偏暗
纪录片感（Documentary）：自然光，真实色彩
商业感（Commercial）：明亮，高饱和，干净
文艺感（Artistic）：低饱和，特定色调偏移

摄影机参考：这个技巧非常有效。直接写摄影机型号，AI会调用对应的风格训练数据：

Alexa 35/LF：好莱坞主流，暖色，丰富的动态范围
RED Dragon：高清晰度，偏冷，金属质感
ARRI AMIRA：纪录片风格，自然真实
Sony Venice：商业广告感，明亮干净

景深参数：

浅景深（Shallow depth of field / Bokeh）：前景或背景虚化，凸显主体
深景深（Deep focus）：前后都清晰，适合风景和建筑

三、镜头语言进阶：让AI理解「叙事节奏」

SCAMO框架解决了「把参数填对」的问题，但更高阶的目标是让AI理解场景的叙事意图。

这涉及到几个导演概念：

3.1 视觉节奏（Visual Rhythm）

一段视频的感觉不只是靠内容，更靠节奏——快慢、停顿、转场。

在Prompt里控制节奏的方式是描述动作的时间结构：

「她走进门，停顿两秒扫视房间，然后缓慢走向窗边」——这里有明确的节奏：移动→停顿→移动，速度：正常→静止→慢。AI会把这个节奏感翻译进生成结果。

3.2 焦点控制（Focus Pull）

焦点转移是电影里常见的叙事技巧，用于引导观众注意力。

写法：「镜头对焦从前景咖啡杯（模糊）转移到背景窗外的街景（清晰）」——这个指令能让AI模拟对焦变化。

3.3 视角一致性

如果你的视频需要多个镜头剪辑在一起（即使单条生成），需要在Prompt里保持视角一致性描述。

比如一个场景里先有全景，再有特写，再有全景——这三段Prompt的S（主体）描述要保持一致，光线方向要一致，服装要一致。这是保持「视觉连贯性」的基础。

四、平台差异：同一框架，不同侧重

不同平台对SCAMO各维度的响应能力有差异，了解这些差异能让你针对性优化：

Kling V2.1/V3：对运镜参数（M维度）响应最好，是目前市场上镜头控制最精确的平台之一。中文Prompt效果和英文差距不大，适合中文用户。对Action细节（A维度）执行能力强。

Sora 2（2025年9月正式上线）：对Context（C维度）和整体风格（O维度）理解最深，生成的场景「氛围感」最强。但对精确的运镜指令响应相对弱，更适合用自然语言描述整体感觉。

Google Veo 3.1：英文Prompt效果明显优于中文，如果要用Veo，建议把SCAMO框架翻译成英文后再使用。对Output（O维度）的技术参数支持最全面，4K/60fps输出质量在所有平台里最高。

Runway Gen-4.5：在Movement（M维度）上有自己的专属参数系统，称为「Camera Controls」，可以用数值控制摄影机运动幅度，适合需要精确控制的专业用户。

Pika 2.5：对SCAMO框架支持最轻量，适合快速生成，但对复杂运镜指令支持有限。主要用于需要大量生成测试版本的场景。

五、常见错误模式和修正

错误1：把所有信息堆在一起，不分层

错误写法：「一个美丽的年轻女人穿着红色裙子在一个很漂亮的花园里开心地奔跑4K高清电影感」

这种写法里所有信息都在一个平面，AI不知道哪个优先级更高，结果是混乱的折中方案。

修正写法：用SCAMO分层，每个维度独立表述。

错误2：过度堆砌形容词

「非常非常漂亮的、极度精致的、超级有质感的」——形容词叠加不会让效果变好，只会让AI困惑。

一个准确的名词胜过五个模糊的形容词。「Alexa摄影机风格」比「非常电影感」精确得多。

错误3：忽略「负向提示词」（Negative Prompt）

大多数平台都支持Negative Prompt，也就是你不想要的内容。

常用负向提示词：

distorted faces（避免面部变形）
blurry motion（避免运动模糊过度）
flickering（避免画面闪烁）
text in image（避免画面中出现文字）
extra limbs（避免多余肢体，这是AI视频常见问题）

在中文平台（如Kling）可以直接写中文负向词：「不要出现多余的手指，不要文字水印，不要画面闪烁」

错误4：试图在一个Prompt里讲一个完整故事

AI视频模型单次生成的上下文处理能力是有限的。一段Prompt最好描述一个连续的5-10秒场景，而不是一个包含多个转折的故事。

如果你需要叙事感更强的视频，正确做法是：

把故事拆成3-5个独立场景
每个场景写独立的SCAMO Prompt
分别生成后剪辑

这样每个场景的质量都能最大化。

六、实战案例：同一场景的五个版本

以「职业女性在走路」为基础，展示从最低质到最高质的Prompt演进：

版本1（初学者）：

一个女人在走路

版本2（加了基础描述）：

一个穿西装的女人在写字楼大堂走路

版本3（加了情境）：

一个穿黑色西装的女人在现代写字楼大堂快步走路，清晨光线

版本4（加了镜头）：

一个穿黑色西装的职业女性在现代玻璃写字楼大堂快步走路，清晨自然光从落地窗射入。侧面低角度跟随镜头，轻微手持抖动。4K，24fps

版本5（完整SCAMO）：

[S] 35岁亚裔职业女性，肩长黑发，高颧骨，穿深蓝色修身西装，白色衬衫领口，细跟黑色高跟鞋
[C] 清晨6:50，现代甲级写字楼大堂，白色大理石地板，蓝灰色调，自然光从十二米高落地窗斜射进入形成长条形光影，前台区域有淡淡的冷色LED补光
[A] 快步走向电梯区域，右手提公文包，左手翻看手机屏幕，皮鞋落地声清晰，肩膀稍前倾，眼神专注前方
[M] 膝盖高度的侧面低角度跟随镜头，与主体保持1.5米距离，轻微手持抖动（6mm稳定器感），前景有虚化的大堂柱子遮挡
[O] 4K电影感，冷蓝色调，24fps，浅景深背景虚化，Alexa LF摄影机风格，轻微胶片颗粒感，不要出现多余肢体，不要文字水印

从版本1到版本5，生成质量的差距是肉眼可见的，这就是Prompt工程的价值所在。

七、建立你自己的Prompt模板库

用SCAMO框架用熟了以后，效率提升的关键是建立可复用的模板库。

我的做法：

镜头运动模板（10个常用）：

推进+浅景深（情绪特写）
低角度跟随（人物行走）
俯视全景+慢慢下降（场景介绍）
手持追逐（紧张感）
旋转展示（产品/人物）
固定镜头+人物穿过（距离感）
对焦从前景转后景（叙事转移）
上升+旋转（启发时刻）
跟随背影（旅途感）
平视慢推+淡出（结尾）

风格模板（7种）：

好莱坞商业大片（Alexa LF + 暖色 + 24fps）
欧洲文艺片（Sony Venice + 低饱和 + 24fps）
纪录片（ARRI AMIRA + 自然光 + 手持 + 30fps）
商业广告（干净白底或渐变背景 + 60fps + 高饱和）
社交短视频（竖屏 + 快节奏 + 高对比）
复古胶片（16mm颗粒感 + 褪色色调 + 24fps）
赛博朋克（霓虹光 + 冷青色调 + 雨效 + 24fps）

把这些模板按需要组合，配合SCAMO的S/C/A三个描述维度，生成一条高质量Prompt的时间可以从20分钟缩短到3分钟。

八、关于「中文还是英文」的实用建议

这个问题没有统一答案，取决于平台：

Kling：中文优先，Kling的训练数据里中文视频素材比例高，中文Prompt对中国/东亚场景的理解更准确
Veo 3.1：英文优先，明显差距
Sora 2：英文略优，差距不大
Runway Gen-4.5：英文优先，特别是专业术语部分
Pika 2.5：英文优先

一个折中方案：场景和人物描述用中文，镜头语言（M维度）和技术参数（O维度）用英文专业术语。大多数平台都能理解中英混合的Prompt，而且镜头语言词汇本来就是英文的会更精确（dolly in比「推镜」对AI更有效）。

实质性建议

如果你现在开始练习，最有效的路径是：先只专注**M（运镜）**维度的学习——把10个基础镜头运动全部实测一遍，感受每种运镜在不同场景里的效果差异。镜头语言是AI视频Prompt里最被低估、但提升最快的维度。掌握运镜之后，再系统完善S/C/A/O四个维度，整体质量会上一个台阶。

本文由AI辅助整理，数据来源：OpenAI Sora 2官方文档（2025）、AI视频Prompt工程社区测试数据（2025-2026）。平台功能和参数随版本更新，以各平台最新官方文档为准，仅供参考。