这个问题的核心不是“要不要加一句特定提示词”，而是你要把...

用于把剧情、镜头和动作按时间轴拆解，提升 AI 视频的顺序稳定、动作连续和画面可执行性。

AI视频分镜

提示词

时间轴

AI视频

15秒

1,274 字2 min

这个问题的核心不是“要不要加一句特定提示词”，而是你要把 15 秒视频从“多个画面描述”改成“按时间推进的导演调度”。AI视频模型最怕的不是镜头多，而是你把很多镜头并列写在一起：镜头1做这个，镜头2做那个，镜头3再做另一个。模型一看，会把它理解成一堆视觉元素和动作关键词，于是就容易乱序、跳镜头、重复动作，或者前一个镜头人还没转身，后一个镜头已经跑到另一个地方了。 最稳的办法是：15 秒视频如果有多个镜头，不要只写“镜头一、镜头二、镜头三”，而要写成“0–4秒、4–9秒、9–15秒”的时间轴。每个镜头都必须有开始状态、持续动作、结束状态。尤其是结束状态非常重要，因为下一个镜头要从这个状态接上。 比如不要这样写： “镜头1：女孩在走廊奔跑。镜头2：女孩推门。镜头3：女孩回头看。镜头4：女孩进入房间。” 这种写法看似有顺序，其实对 AI 来说还是松散的。它不知道推门发生在跑步之后，也不知道回头是在门前还是房间里，更不知道女孩从画面左边跑到右边，还是从远处跑向镜头。它只看到了“奔跑、推门、回头、进入房间”四个动作关键词，所以很容易把顺序打乱。 应该这样写： “整条视频严格按照时间顺序推进，不允许倒叙、不允许闪回、不允许插入无关镜头、不允许重复前一镜头动作。所有镜头必须按 0–4秒、4–9秒、9–15秒依次出现。镜头之间使用动作接力，后一个镜头必须从前一个镜头的结束状态自然接上。” 然后具体写： 0–4秒，第一个镜头，中景。女孩从走廊远处向画面右前方奔跑，呼吸急促，右手已经伸向门把手。镜头结束时，她的右手刚刚碰到门把手，身体仍然向前冲。 4–9秒，第二个镜头，近景，动作接上一个镜头。画面从女孩右手握住门把手开始，她顺着上一镜头的惯性用力推开门，门从半开变成完全打开。她没有停顿，身体继续向房间内迈入。镜头结束时，她已经一只脚进入房间，另一只脚还在门外。 9–15秒，第三个镜头，室内反打。女孩从门口冲进房间后突然停住，身体微微前倾，慢慢回头看向走廊方向，脸上露出害怕和迟疑。镜头结束时，她站在房间门口，门仍然半开，走廊光从身后照进来。 你看，这样写以后，AI就不是在“抽四张画面”，而是在执行一条动作链。前一个镜头的结束状态，就是下一个镜头的开始状态，这叫“动作接力”。这比单纯写“镜头按顺序出现”有用得多。 如果你想让多镜头更稳，还要加一个“镜头职责”。每个镜头只负责一件事，不要一个镜头又要交代环境，又要表现情绪，又要完成大动作，又要切特写。15秒里面镜头越多，每个镜头越应该简单。一般来说，15秒建议最多 3 个镜头，最多不要超过 4 个。因为AI视频不是剪辑软件，它生成的是一段连续影像。如果你在15秒里塞6个镜头，它很容易把镜头理解成快速混剪，顺序就会乱。
  ↳ 回复 Alex: @猫拳 猫大师，想问一下，如果一个15秒的视频里面有多个镜头，怎样让ai在生成视频的时候保持每个镜头是按顺序出现，并且动作保持连贯的呢，是不是要加什么特定提示词。目前我做视频的时候经常会出现镜头顺序错乱，然后镜头与镜头之间连接不够通顺的情况