໒꒱ ⁺₊ 读音问题尤其不能靠视频模型解决，必须用真人录...

提示词写作方法论，可作为生成/优化 Prompt 的结构化起点。

提示词方法论

提示词

时间轴

1,714 字3 min

໒꒱ ⁺₊ 读音问题尤其不能靠视频模型解决，必须用真人录音、专业 TTS，或者可控 SSML/音素音频片段来拼。真正能解决的方案是这样：先做一张固定底图，老师站在中间，胸前区域留空，不要让 AI 生成任何文字。提示词只写：“young friendly English phonics teacher, front-facing, smiling, hands relaxed below frame, clean classroom background, empty space in the center for later text overlay, no text, no letters, no subtitles, no pointing gesture”。这样老师、脸、衣服、背景稳定了，后面所有教学信息都用剪辑软件加。

第二步，在剪映、AE、CapCut、Canva、PR 里自己加文字层：上面大字 cake，下面小字 /keɪk/。这里一定要用支持 IPA 的字体，比如 Noto Sans、Charis SIL、Arial Unicode 这类，不要让 AI 画。ɪ 这个符号必须是复制进去的真字符，不是普通 i。如果给儿童看，下面可以再加一行更口语的提示：c /k/ + a-e /eɪ/ + k /k/，final e is silent。这里我建议你把规则从“a 读 /eɪ/，e 不发音”稍微升级一下，写成 a-e split digraph says /eɪ/，也就是“a 和最后的 silent e 组合，让 a 发长音 /eɪ/”。小学启蒙可以简化成“a says its name, e is silent”，但底层最好别让孩子误会成所有单独的 a 都读 /eɪ/。

第三步，手指不要让视频 AI 生成。最稳的是用一个透明底的卡通手指 PNG，或者一根教鞭/激光点/小星星光标。说实话，教鞭比真人手指稳十倍，因为真人手涉及五指、关节、遮挡、穿模，视频模型最容易翻车。你可以把指针做成一个单独图层，然后打关键帧：指尖先移动到 c，停住 0.2 秒，c 发光，声音读 /k/；再移动到 a，停住，a 发光，声音读 /eɪ/；再到 k，再到 e，e 发灰或出现 “silent”。这样画面和声音是剪辑软件控制的，不是让 AI 猜。

时间轴我建议直接这么做：0.0–1.5 秒，正常读 “cake /keɪk/”，整词发光一次；1.5–3.0 秒，指到 c，只让 c 发光，读 /k/；3.0–4.5 秒，指到 a，让 a 和最后的 e 同时有轻微连线或魔法光，读 /eɪ/；4.5–6.0 秒，指到 k，读 /k/；6.0–7.5 秒，指到 e，e 变灰，出现标签 silent e，旁白说 “silent e, no sound”；7.5–10.5 秒，慢速拼读：/k/ ... /eɪ/ ... /k/，画面依次高亮 c → a_e → k；10.5–12.0 秒，快速连读：cake /keɪk/，整词发光；12.0–13.0 秒，老师点赞或微笑收尾。注意这里不要写“c-a-k → /k/+/eɪ/+/k/”，更准确应该是 c + a_e + k → /k/ + /eɪ/ + /k/，因为最后的 e 虽然不发音，但它改变了 a 的发音。

声音这块要单独讲清楚：如果用普通 TTS，你直接让它读 /k/，它很可能读成 “slash k slash”、或者读成字母名 “kay”；你让它读 /eɪ/，它也可能乱读。儿童自然拼读里最危险的就是这个：字母名、音素、IPA 符号不是一回事。 所以专业做法不是把 /k/ 丢给 TTS，而是准备几个固定音频片段：cake、短促的 /k/ 音、/eɪ/ 音、silent e, no sound、/k/ /eɪ/ /k/、cake。最好真人录，录的时候 /k/ 不要读成 “kuh”，也不要读成 “kay”，而是短促清晰的 /k/。如果一定用 TTS，就用支持 SSML phoneme 的英式儿童/女声，并且最终人工听一遍校对。