返回模板库
详情页
提示词方法论
2026-07-03 18:09

໒꒱ ⁺₊ 读音问题尤其不能靠视频模型解决,必须用真人录...

提示词写作方法论,可作为生成/优化 Prompt 的结构化起点。

提示词方法论
提示词
时间轴
1,7143 min
໒꒱ ⁺₊ 读音问题尤其不能靠视频模型解决,必须用真人录音、专业 TTS,或者可控 SSML/音素音频片段来拼。真正能解决的方案是这样:先做一张固定底图,老师站在中间,胸前区域留空,不要让 AI 生成任何文字。提示词只写:“young friendly English phonics teacher, front-facing, smiling, hands relaxed below frame, clean classroom background, empty space in the center for later text overlay, no text, no letters, no subtitles, no pointing gesture”。这样老师、脸、衣服、背景稳定了,后面所有教学信息都用剪辑软件加。

第二步,在剪映、AE、CapCut、Canva、PR 里自己加文字层:上面大字 cake,下面小字 /keɪk/。这里一定要用支持 IPA 的字体,比如 Noto Sans、Charis SIL、Arial Unicode 这类,不要让 AI 画。ɪ 这个符号必须是复制进去的真字符,不是普通 i。如果给儿童看,下面可以再加一行更口语的提示:c /k/ + a-e /eɪ/ + k /k/,final e is silent。这里我建议你把规则从“a 读 /eɪ/,e 不发音”稍微升级一下,写成 a-e split digraph says /eɪ/,也就是“a 和最后的 silent e 组合,让 a 发长音 /eɪ/”。小学启蒙可以简化成“a says its name, e is silent”,但底层最好别让孩子误会成所有单独的 a 都读 /eɪ/。

第三步,手指不要让视频 AI 生成。最稳的是用一个透明底的卡通手指 PNG,或者一根教鞭/激光点/小星星光标。说实话,教鞭比真人手指稳十倍,因为真人手涉及五指、关节、遮挡、穿模,视频模型最容易翻车。你可以把指针做成一个单独图层,然后打关键帧:指尖先移动到 c,停住 0.2 秒,c 发光,声音读 /k/;再移动到 a,停住,a 发光,声音读 /eɪ/;再到 k,再到 e,e 发灰或出现 “silent”。这样画面和声音是剪辑软件控制的,不是让 AI 猜。

时间轴我建议直接这么做:0.0–1.5 秒,正常读 “cake /keɪk/”,整词发光一次;1.5–3.0 秒,指到 c,只让 c 发光,读 /k/;3.0–4.5 秒,指到 a,让 a 和最后的 e 同时有轻微连线或魔法光,读 /eɪ/;4.5–6.0 秒,指到 k,读 /k/;6.0–7.5 秒,指到 e,e 变灰,出现标签 silent e,旁白说 “silent e, no sound”;7.5–10.5 秒,慢速拼读:/k/ ... /eɪ/ ... /k/,画面依次高亮 c → a_e → k;10.5–12.0 秒,快速连读:cake /keɪk/,整词发光;12.0–13.0 秒,老师点赞或微笑收尾。注意这里不要写“c-a-k → /k/+/eɪ/+/k/”,更准确应该是 c + a_e + k → /k/ + /eɪ/ + /k/,因为最后的 e 虽然不发音,但它改变了 a 的发音。

声音这块要单独讲清楚:如果用普通 TTS,你直接让它读 /k/,它很可能读成 “slash k slash”、或者读成字母名 “kay”;你让它读 /eɪ/,它也可能乱读。儿童自然拼读里最危险的就是这个:字母名、音素、IPA 符号不是一回事。 所以专业做法不是把 /k/ 丢给 TTS,而是准备几个固定音频片段:cake、短促的 /k/ 音、/eɪ/ 音、silent e, no sound、/k/ /eɪ/ /k/、cake。最好真人录,录的时候 /k/ 不要读成 “kuh”,也不要读成 “kay”,而是短促清晰的 /k/。如果一定用 TTS,就用支持 SSML phoneme 的英式儿童/女声,并且最终人工听一遍校对。