那天用三个AI词，端午粽子视频一次过。

栏目：AI工具问答更新时间：2026-06-02 21:21:29 阅读：1730

我有个朋友说

还记得去年端午节前夜，我差点被视频逼疯

说句实在的哦，去年五月初，我老婆突然说她们单位要搞个端午节文化展示，每个部门出个短视频，主题就是粽子制作，哦。她倒好，直接把活儿甩给我，说“你不是天天跟AI玩吗？弄个教程出来”，哦。我嘴上答应得爽快，心里直打鼓——咱虽然折腾AI视频大半年了，但真要到做“教程”这一步，还

是头一回。

当晚我打开电脑，想着先拿几个常用素材试试水。结果呢？生成了七八段视频，不是粽叶飞起来像鬼片，就是糯米撒得跟天女散花似的，最离谱的是AI把粽子包成了四不像，旁边还飘着“端午安康”四个大字，字体还是那种九十年

代艺术字。我老婆看了一眼，直接说了句“还不如我拿手机拍呢”。

那一刹那我真有点上头。但说白了，AI视频生成这事，关键就是提示词写得好不好。不是给的词越多越好，也不是描述得越细越好，而是你得让它真正理解“这个过程是怎么一步步发生的”。后来我花了一整晚调了三个词，反反复复试了差不多七八次，终于出来了能用的东西。今天就把这三个词说给你听，纯实操经验，不讲虚的。

第一个提示词：让AI学会“拆动作”

很多人做粽子教程，第一反应就是写“包粽子的过程”，结果AI给你生成了一个镜头：一个人手上揉着糯米，粽叶飞起来，然后咣当一下一个成品粽子出现了。中间怎么卷、怎么放馅、怎么扎绳，全跳过了。为什么？因为你没告诉它要“分步”。

我试出来的第一个词是这样的：“第一人称视角，双手操作，包含洗粽叶、泡糯米、切五花肉、调味、卷叶、填米、放肉、折叶、捆绳共九个步骤，每个步骤持续3-5秒，动作缓慢清晰，背景为厨房台面，自然光，镜头固定”。看到没？我直接把步骤拆成了九个动作，而且给了时间长度和视角要求。这个很重要，AI默认喜欢快镜头，你不说“缓慢清晰”，它就会给你来一段加速版，跟开了倍速似的。

有个朋友跟着我试，他写的是“包粽子的详细过程，慢动作”，结果生成的视频确实慢了，但每一步之间衔接特别生硬，像是PPT翻页。我就告诉他，得给AI一个“动作之间的过渡暗示”。比如在“折叶”和“填米”之间，加一句“将两片粽叶重叠后对折成锥形，用左手固定”。让AI理解每个动作的前后逻辑，而不是死板地切镜头。

那天用三个AI词，端午粽子视频一次过。

对了，这里有个踩坑提醒：别写“精致”“高档”这种词，AI会给你加一些莫名其妙的滤镜和装饰，粽子上放朵花，糯米底下铺金箔，根本没法用。就用“自然光”“干净”“真实”这些接地气的词。

第二个提示词：让手部动作“活着”

第一个提示词搞定了步骤，但生成的视频还是有点假——那双手像机器人的，动作僵硬，手指不会弯曲。你看过真人在厨房里包粽子吧？手指是灵活的，会调整粽叶的角度，会用指腹按压糯米，会轻轻抖动让米更密实。AI默认生成的手部动作太“完美”了。

我第二个提示词专门用来优化手部细节：“真实人类手部皮肤纹理，手指有轻微颤抖和调整动作，捆绳时手指从粽叶底部绕到顶部来回两圈，打结时手指交叉拧动，所有动作带有轻微随机性，避免机械重复”。注意那几个词：“轻微颤抖”“随机性”“来回两圈”，这些是让AI从“动画感”转向“实拍感”的关键。

我第一次加“轻微颤抖”的时候，心里也没底，怕出来手抖得跟帕金森似的。结果生成的效果反而很自然——就像一个人在认真做事时，偶尔手部肌肉的小抖动。而且因为加上了“随机性”，每个包粽子的动作都有一点点不一样，看起来就不是AI生成的流水线了。

还有个小技巧：如果你用的前期软件支持多帧参考，可以给提示词里加上“第1-5帧为初始手部位置，第6-10帧开始卷叶”，让AI在时间线上有更明确的运动参考。不过大部分人用的都是普通文生视频，那就把上面那段提示词直接复制进去就行。

第三个提示词：搞定背景和氛围，别让AI乱加料

前两个提示词把动作和手部都搞定了，但很多人生成的视频背景要么一团模糊，要么突然出现一个不相关的电饭煲。我就遇到过，本来在台面上包粽子，AI突然生成了一碗汤圆摆在旁边，好家伙，端午变元宵了。

所以第三个提示词要锁死背景和氛围：“浅色木质厨房台面，左侧放一盆泡好的糯米，右侧放一碗腌制好的五花肉，后面有一碗清水，墙面为白色瓷砖，没有食物以外的任何装饰物，阳光从右侧窗户斜射进来，形成柔和光斑，无其他人物入镜”。你发现没有，我甚至把“光斑”都写进去了——因为AI默认喜欢打那种顶光，会把食物照得发白，现实中谁家厨房是那种灯光啊？自然光斜射才能让糯米有晶莹感，粽叶有纹理。

我有个朋友是做美食自媒体的，他当时问我：“为什么我生成的视频里总是多出一双手？”我说因为你没写“只有一双手入镜”。AI有时候会脑补出两个人协作，你只要把“无其他人物”写进提示词，它就不会瞎搞。还有，如果你想要更真实，可以加一句“台面上有水渍和零星米粒”——没错，让画面有点“生活痕迹”，AI就不会给你生成那种样板房式的干净厨房。

这套提示词不是一次就能用到完美，我前后跑了差不多上百次，每次只改两三个词，观察差异。劝你你也别嫌麻烦，至少准备三四组对比，挑一个最顺眼的。你看，就这三个词，说穿了也没什么神秘的，但你要是蒙着头瞎写，可能一整天都出不来能用的东西。

总结一下，三个词的核心其实是“控制”

第一个词控制节奏，第二个词控制真实感，第三个词控制环境。用这三个提示词生成的粽子制作视频，我老婆拿给她们单位看，领导说“这是抖音上哪个博主拍的？”她嘿嘿一笑没说话。后来那视频还在他们单位的内部评比里拿了二等奖，奖品是一箱粽子，我吃到现在还没吃完。

最后说个大多数人都会犯的错：觉得提示词越长越好。我刚开始也这么想，写了一百多个词的提示，结果AI直接宕机了，或者生成出来画面元素太多，乱成粥。真正有效的提示词，核心关键词控制在15-25个左右就够了，把你最在意的那几个点写进去，其他的交给AI的想象力。但如果你特别在意某个细节，比如“捆绳时绳子的绕圈方式”，那就必须写具体，不能含糊。

还有一点，不同AI工具对提示词的敏感度不一样。折腾过三个主流的，有的擅长理解“随机性”，有的就完全忽略。所以你拿到一个工具，先用我上面这三组词跑一遍，如果效果不对，就在对应位置微调。比如你发现手部还是不自然，那就把“手指轻微颤抖”改成“手指在每一次动作开始前有0.5秒停顿，仿佛在思考下一步”——这个描述更接近真实人类的操作习惯。

好了，基本就这些。折腾了这么久，我最大的感受是：AI视频生成不是魔法，它更像一个特别听话但智商欠费的实习生，你得掰开了揉碎了告诉它每一步。但一旦你找到了那两三个关键提示词，剩下的就全是复制粘贴的快感了。今年端午如果你也要做视频，不妨试试我这几条，省下来的时间还能多包俩粽子吃。

（信息整理不易，觉得有用请点赞支持～）

那天用三个AI词，端午粽子视频一次过。

还记得去年端午节前夜，我差点被视频逼疯

第一个提示词：让AI学会“拆动作”

第二个提示词：让手部动作“活着”

第三个提示词：搞定背景和氛围，别让AI乱加料

总结一下，三个词的核心其实是“控制”

你可能还需要