OpenAI 发布了 Sora 2 提示词指南,在 OpenAI Cookbook上
如何打造一条成功的视频提示词
在动笔之前
想象一下,写提示词就像是给一位从未见过你故事板的摄影师做简报。如果你省略了细节,他就会即兴发挥——那你可能就得不到你想要的画面了。通过具体说明这个“镜头”需要达到什么效果,你就能让模型更好地控制画面,并保持生成结果的一致性。
但反过来,留出一些想象空间也同样威力无穷。给模型更多的创作自由,可能会带来意想不到的惊喜和美妙的诠释。这两种方法都行得通:详细的提示词能带来更强的控制力和一致性,而简单的提示词则为创意成果打开了空间。 如何取得平衡,取决于你的目标和期望的效果。
把你的提示词看作是一份创意的愿望清单,而不是一份死板的合同。就像使用 ChatGPT 一样,多次使用同一条提示词会产生不同的结果——这是一个特性,不是一个 bug。每一次生成都是一次全新的尝试,有时候第二个或第三个版本效果会更好。
最重要的是,要做好反复迭代的准备。对镜头、灯光或动作的微小调整,都可能让结果发生翻天覆地的变化。你需要和模型合作:你来指导方向,模型则负责提供富有创意的各种版本。
这并非一门精确的科学——请将下面的指南看作是我们与模型打交道时总结出的一些实用建议。
视频分辨率
视频分辨率直接影响 Sora 生成画面的视觉保真度和动态连贯性。更高的分辨率能更精确地生成细节、纹理和光影过渡,而较低的分辨率会压缩视觉信息,通常会带来模糊感或瑕疵。
视频长度
通常,在较短的视频里,模型能更可靠地遵循指令。为了获得最佳效果,尽量生成简短的镜头。如果你的项目允许,将两个4秒的片段剪辑到一起,效果可能会比直接生成一个8秒的片段更好。
行之有效的提示词结构
一条清晰的提示词,应该像你把镜头草图画在故事板上一样进行描述。说明镜头的取景,点明景深,分步骤描述动作,并设定好灯光和色调。用几个独特的细节来锚定你的主体,使其保持可识别性,同时用一个单一、合理的动作让镜头更容易跟拍。
在一条提示词里描述多个镜头也是可以的,如果你需要覆盖一个连续的场景。当你这样做时,要让每个镜头的描述块各自独立:一次只描述一个机位设置、一个主体动作和一种光线方案。这让你能灵活地生成独立的短片或更长的连续时刻,具体取决于你的项目。把每个镜头都当作一个创意单元,你可以将它们剪辑在一起,也可以让它们作为一个连续的序列一次性播放出来。
- 简短的提示词给模型更多创作自由,你可能会得到意想不到的惊喜。
- 更长、更详细的提示词会限制模型的创造力。它会尽力遵循你的指导,但可能不总是那么可靠。
这是一个简短提示词的例子:
> 在一段90年代纪录片风格的采访中,一位瑞典老人坐在书房里说:“我至今还记得我年轻的时候。”
这个提示词很可能会成功:
- "90年代纪录片风格" 设定了视频的风格。模型会据此选择镜头、灯光和色调等参数。
- "一位瑞典老人坐在书房里" 简单描述了主体和场景,让模型在人物和环境的具体样貌上有自由发挥的空间。
- "说:“我至今还记得我年轻的时候。”" 描述了对白。Sora 很可能能精确地复现这句对白。
这个提示词能稳定地生成符合这些要求的视频。然而,这不一定能完全符合你的设想,因为许多细节都没有被提及。例如,提示词没有描述具体时间、天气、服装、氛围、角色的相貌和年龄、摄像机角度、剪辑、布景设计以及许多其他因素。除非你描述这些细节,否则 Sora 会自己创造。
进阶玩法:超详细提示词
对于复杂的、电影感的镜头,你可以超越标准的提示词结构,用专业的制作术语来指定外观、机位设置、调色、音景,甚至镜头的拍摄理由。这就像导演给摄影团队或视觉特效(VFX)团队开会一样。关于镜头、滤镜、灯光、调色和运动的详细线索,能帮助模型锁定一个非常具体的美学风格。
例如,你可以描述观众首先注意到什么、摄影机平台和镜头、光线方向、调色板、纹理质感、场景内音效**(Diegetic sound,即影片中角色能听到的声音,与作为背景音乐的非场景音相对)** 和镜头时机。当你想匹配真实的电影摄影风格(例如,IMAX 航拍、35mm 手持拍摄、复古 16mm 纪录片)或在多个镜头间保持严格的连续性时,这种方法非常有效。
范例
"""
格式与外观
时长4秒;180°快门(这是一种电影拍摄技术,快门角度为180度,能产生自然的运动模糊效果);数字拍摄,模仿65毫米胶片(65 mm photochemical)的对比度质感;细颗粒感;高光部分有轻微的光晕(halation);无胶片抖动(gate weave)。
镜头与滤镜
32毫米/50毫米球面定焦镜头;1/4 黑柔焦滤镜(Black Pro-Mist 1/4,一种摄影滤镜,能柔化高光,降低对比度,营造梦幻氛围);轻微旋转环形偏振镜(CPL)以控制火车车窗的反光。
调色/色板
高光:带有琥珀色调的清晨阳光。
中间调:平衡的中性色,阴影部分略带青色。
暗部:柔和、中性的黑色,为保留薄雾感而轻微提亮。
光线与氛围
自然阳光从摄像机左侧以低角度射入(早上7:30)。
补光:轨道旁使用4x4英尺的银色反光板(4×4 ultrabounce silver)。
对面墙壁作为吸光(Negative fill)。
场景光源:站台上的钠灯逐渐变暗。
氛围:轻柔的薄雾;火车排出的废气飘过光束。
地点与构图
城市通勤站台,黎明时分。
前景:黄色安全线,长凳上的咖啡杯。
中景:等待的乘客在薄雾中形成剪影。
背景:进站的火车正在刹车。
避免出现任何标牌或公司品牌。
服装/道具/群众演员
主要角色:30多岁的旅行者,身穿海军蓝外套,单肩背着背包,手机随意地拿在身侧。
群众演员:穿着暗色调衣服的通勤者;一名推着自行车的骑行者。
道具:纸质咖啡杯,拉杆箱,LED 出发信息牌(显示通用目的地)。
音效
仅场景内音效(Diegetic only):微弱的铁轨摩擦声,火车刹车的嘶嘶声,远处模糊的广播声(-20 LUFS,响度单位,-20 LUFS表示一个相对安静的音量标准),低沉的环境嗡嗡声。
脚步声和纸张的沙沙声;无配乐或后期添加的音效。
优化分镜表(2个镜头/总时长4秒)
0.00–2.40 — “抵达漂移”(32毫米镜头,肩扛式缓慢向左移动)
镜头滑过站台标牌边缘;浅焦揭示出旅行者在画面中央,正望着轨道远方。晨光在镜头中绽放;火车头灯在薄雾中柔和地闪耀。目的:建立场景和基调,暗示期待感。
2.40–4.00 — “转身停顿”(50毫米镜头,缓慢弧线推近)
切到一个更近的过肩弧线镜头,火车停稳;旅行者稍微转向镜头,阳光勾勒出他脸颊的轮廓,手机屏幕也反射出光芒。他的眼睛向上瞥向某个看不见的东西。目的:用最少的动作创造一个聚焦于人物的瞬间。
摄影机备注(为何这样拍)
保持视线高度较低并靠近镜头轴线,以营造亲密感。
允许火车玻璃产生微小的眩光,作为一种美学纹理。
保留手持拍摄的微小不完美,以增加真实感。
不要让过曝的眩光破坏剪影的清晰度;保留皮肤高光的平滑过渡。
后期制作
叠加细颗粒感和轻微的色度噪点以增加真实感;场景光源有克制的光晕;使用冷暖色调的LUT(色彩查找表)营造清晨的色调分离感。
混音:优先处理火车和环境细节,而不是脚步声的瞬态。
封面帧:旅行者转身的瞬间,金色的轮廓光,进站的火车在背景薄雾中柔焦。
"""
用视觉线索引导画面风格
在写提示词时,风格是引导模型走向你期望结果的最强有力的杠杆之一。描述整体的美学——例如,*“1970年代电影风格”、“史诗级、IMAX 规模的场景”* 或 *“16毫米黑白胶片”*——能为所有其他选择定下视觉基调。尽早确立这种风格,模型才能将其贯穿始终。
同样的细节,在你要求的是一部精致的好莱坞戏剧、一段手持手机拍摄的短片,还是一则颗粒感十足的复古广告时,模型解读出的效果会截然不同。一旦基调设定好,再用镜头、动作和光线来添加具体细节。
清晰至上。不要用模糊的线索,如:
- 不要说“一条美丽的街道”,而是写“湿漉漉的沥青路面,斑马线,霓虹灯在水坑中的倒影”。
- 不要说“快速移动”,而是具体说明*“骑车人蹬了三下踏板,刹车,停在人行横道前”*。指向可见结果的动词和名词总能给你带来更清晰、更一致的输出。
- 不要说“电影感”,而是具体说明:“2.0倍变形宽银幕镜头(一种电影镜头,能拍出宽银幕效果和标志性的水平眩光),浅景深(shallow DOF),体积光(volumetric light,也叫丁达尔效应,就是光线穿过烟雾或灰尘时形成的光柱)”
摄影机方向和构图决定了镜头的观感。高角度的广角镜头会强调空间和环境,而平视的特写镜头则会聚焦于情感。景深则增加了另一层维度:浅景深可以让主体在模糊的背景中脱颖而出,而深景深则能让前景和背景都保持清晰。灯光同样能强烈地设定基调。柔和温暖的主光能营造出温馨的氛围,而单一的硬光加上冷色边缘则会推向戏剧化。
在引入角色时,要预料到一些不可预测性——措辞的微小变化可能会改变角色的身份、姿势或场景的焦点。在不同镜头间保持描述的一致性,重复使用相同的措辞以确保连贯性,并避免混合可能相互冲突的特征。
糟糕的示范
> 摄影机镜头:电影感
优秀的示范
> 摄影机镜头:广角镜头,低角度
>
> 景深:浅景深(主体清晰,背景模糊)
>
> 光线与色调:温暖的逆光,带有柔和的轮廓光
一些好的构图指令范例:
- 广角建立镜头,平视角度
- 广角镜头,跟随冲锋从左向右移动
- 航拍广角镜头,轻微俯角
- 中景特写,从背后略带角度
一些好的摄影机运动指令范例:
- 缓慢倾斜的镜头
- 手持新闻采访式摄影机
控制动作与时机
动作往往是最难搞定的部分,所以要保持简单。每个镜头应该只有一个清晰的摄影机运动和一个清晰的主体动作。动作最好用节拍或计数的方式来描述——比如小步、手势或停顿——这样它们才感觉有时间上的依据。
“演员走过房间”并不能提供太多信息。而像“演员向窗户走了四步,停顿了一下,在最后一秒拉上了窗帘”这样的描述,则使得时机精确且可实现。
糟糕的示范
> 演员走过房间。
优秀的示范
> 演员向窗户走了四步,停顿了一下,在最后一秒拉上了窗帘。
光线与色彩的一致性
光线和动作、场景一样,共同决定了画面的情绪。遍布画面的漫射光感觉平静而中性,而单一的强光源则会产生鲜明的对比和紧张感。当你想把多个片段剪辑在一起时,保持光线逻辑的一致性是使剪辑无缝衔接的关键。
既要描述光的质感,也要描述能强化这种质感的色彩锚点。不要用像“光线明亮的房间”这样宽泛的描述,而要具体说明光源和色调的组合:“柔和的窗光,辅以温暖的台灯补光,以及来自走廊的冷色边缘光。”指定三到五种颜色有助于在不同镜头间保持色调的稳定。
糟糕的示范
> 光线与色调:光线明亮的房间
优秀的示范
> 光线与色调:柔和的窗光,温暖的台灯补光,来自走廊的冷色边缘光
> 色调锚点:琥珀色、奶油色、胡桃棕
为了对镜头的构图和风格进行更精细的控制,你可以使用图像输入作为视觉参考。你可以使用照片、数字艺术作品或AI生成的视觉素材。这可以锁定角色设计、服装、布景或整体美学等元素。模型会将这张图片作为第一帧的锚点,而你的文本提示词则定义了接下来发生的事情。
对白与音效
对白必须在提示词中直接描述。将它放在你的场景描述下方的一个单独区块里,这样模型就能清楚地区分视觉描述和口语台词。保持台词简洁自然,并尽量将对话限制在几句话内,以便时机能与你的视频长度相匹配。对于多角色场景,要一致地标记说话者并使用轮流发言的方式;这有助于模型将每句台词与正确角色的手势和表情联系起来。
你还应该考虑节奏和时机:一个4秒的镜头通常可以容纳一两句简短的对话,而一个8秒的片段可以支持更多一些。冗长复杂的演讲不太可能同步得很好,而且可能会破坏节奏。
如果你的镜头是无声的,你仍然可以用一个微小的声音来暗示节奏,例如“远处交通的嘶嘶声”或“一声清脆的折断声”。把它看作是一个节奏提示,而不是完整的音轨。
带对白的提示词范例:
"""
一个狭窄、没有窗户的房间,墙壁是陈旧灰烬的颜色。天花板上悬挂着一个光秃秃的灯泡,灯光汇聚在中央那张伤痕累累的金属桌子上。两把椅子隔桌相对。一边坐着警探,风衣搭在椅背上,眼神锐利而不眨。他对面,嫌疑人懒散地靠着,烟雾慢悠悠地向天花板卷去。寂静压迫着一切,只有头顶灯光的微弱嗡嗡声打破了沉默。
对白:
- 警探:“你在撒谎。我能从你的沉默中听出来。”
- 嫌疑人:“或许我只是懒得说话了。”
- 警探:“不管怎样,今晚结束前你会开口的。”
"""
背景音描述范例:
> 背景是意式浓缩咖啡机的嗡嗡声和人们的低语声。
使用 Remix 功能进行迭代
Remix 功能是用来微调的,不是用来赌运气的。用它来进行可控的、一次一项的修改,并说明你正在改变什么:“同样的镜头,换成85毫米镜头”,或者“同样的灯光,新的色调:青色、沙色、铁锈色。”当一个结果接近理想时,将它固定为参考,然后只描述需要调整的部分。这样,所有已经奏效的部分就能保持不变。
如果一个镜头总是出错,那就把它简化:固定住镜头,简化动作,清空背景。一旦它成功了,再一步步地增加复杂性。
- 提示词:“把怪物的颜色改成橙色”
- 提示词:“紧接着又出来第二个怪物”
提示词模板与范例
提示词结构
一种有效的提示词写法是将你希望模型使用的不同类型信息分开。这并非一个放之四海而皆准的成功秘诀,但它为你提供了一个清晰的框架,并使保持一致性变得更容易。并非每个细节都需要包含——如果某件事对镜头不重要,你可以省略它。
事实上,对某些元素保持开放性会鼓励模型更具创造力。你对每个视觉选择的规定越不严格,模型就越有空间去解读,并用出人意料但往往很美妙的变体来给你惊喜。高度描述性的提示词会产生更一致、可控的结果,而较轻量的提示词则能解锁感觉新颖、富有想象力的多样化成果。
描述性提示词模板:
"""
[用通俗的语言进行散文式的场景描述。描述角色、服装、布景、天气和其他细节。尽可能详细地描述,以生成符合你构想的视频。]
摄影:
摄影机镜头:[构图和角度,例如:广角建立镜头,平视角度]
情绪:[整体基调,例如:电影感的紧张,俏皮的悬疑,奢华的期待]
动作:
- [动作1:一个清晰、具体的节拍或手势]
- [动作2:片段内的另一个独特节拍]
- [动作3:另一个动作或台词]
对白:
[如果镜头有对白,在此处或作为动作列表的一部分添加简短自然的台词。保持简短,以匹配视频长度。]
"""
提示词范例
范例 1
"""
风格:手绘2D/3D混合动画,具有柔和的笔刷纹理、温暖的钨丝灯光和富有质感的定格动画感。美学风格唤起了2000年代中期的故事书动画感——舒适、不完美、充满机械魅力。微妙的水彩渲染和绘画般的纹理;色调上有冷暖平衡;电影感的运动模糊以增强动画的真实感。
在一个杂乱的工作室里,架子上堆满了齿轮、螺栓和泛黄的蓝图。中央,一个小小的圆形机器人坐在一张木凳上,它凹陷的身体上贴着不匹配的金属板和旧漆层。它大大的发光眼睛闪烁着淡蓝色的光,紧张地摆弄着一个嗡嗡作响的灯泡。空气中回荡着安静的机械嗡鸣声,雨点敲打着窗户,背景中时钟在稳定地滴答作响。
摄影:
摄影机:中景特写,缓慢推进,悬挂的工具产生轻微的视差效果(parallax)。
镜头:35毫米虚拟镜头;浅景深以柔化背景的杂乱。
光线:来自头顶场景光源的暖色主光;来自窗户的冷色溢光以形成对比。
情绪:温柔、奇幻,带有一丝悬念。
动作:
- 机器人敲了敲灯泡;火花噼啪作响。
- 它吓得一哆嗦,灯泡掉了下来,眼睛睁得大大的。
- 灯泡在慢动作中翻滚;它在最后一刻接住了它。
- 一股蒸汽从它胸口喷出——既是松了口气,又带着自豪。
- 机器人轻声说:“差点丢了……但我接住了!”
背景音:
雨声,时钟滴答声,柔和的机械嗡鸣声,微弱的灯泡嘶嘶声。
"""
范例 2
"""
风格:1970年代浪漫剧情片,用35毫米胶片拍摄,带有自然的镜头眩光、柔焦和温暖的光晕。轻微的胶片抖动(gate weave,老式胶片放映机因机械原因产生的轻微画面晃动)和手持微抖唤起了复古的亲密感。温暖的柯达风格调色;灯泡上有轻微光晕;胶片颗粒感和柔和的暗角以营造时代真实感。
在黄金时刻,一个砖砌公寓的屋顶变成了一个小舞台。晾衣绳上挂着的白床单在风中摇曳,捕捉着最后一缕阳光。一串串不匹配的仙女灯在头顶微弱地嗡嗡作响。一个穿着飘逸红色丝绸连衣裙的年轻女子赤脚跳舞,卷发在渐逝的光线中闪耀。她的舞伴——袖子卷起,吊带松垮——在一旁拍手,笑容灿烂而毫无防备。下方,城市在汽车喇叭声、地铁的震动和远处的笑声中嗡嗡作响。
摄影:
摄影机:中景广角镜头,从平视角度缓慢向前推进。
镜头:40毫米球面镜头;浅焦以将这对情侣与天际线分离开。
光线:金色的自然主光,辅以钨丝灯补光;仙女灯提供边缘光。
情绪:怀旧、温柔、电影感。
动作:
- 她旋转;裙摆飞扬,捕捉到阳光。
- 女人(笑着说):“看?今晚连这座城市都在和我们共舞。”
- 他走上前,抓住她的手,将她带入阴影中。
- 男人(微笑着说):“那只是因为你在领舞。”
- 床单飘过画面,短暂地遮住了天际线,然后再次分开。
背景音:
仅自然环境音:微弱的风声、布料飘动的声音、街道噪音、模糊的音乐。无额外配乐。
"""
点击图片查看原图