一种用于视频生成的提示词优化方法、系统、设备及介质技术方案

技术编号：46052525 阅读：11 留言：0更新日期：2025-08-11 15:40

本发明专利技术公开了一种用于视频生成的提示词优化方法、系统、设备及介质，所述方法具体包括：引导用户在图像编辑界面中绘制包含动态遮罩层及运动轨迹矢量层的运动图；将动词要素与运动轨迹进行空间匹配，结合注意力机制生成矛盾区域热力图；当检测到矛盾区域热力图存在冲突区域时，通过强化学习策略进行意图分析，生成多维度优化方案；对修正后的运动图进行迭代验证，若验证通过，将初始图像和多组运动图输入到多模态大语言模型，生成包含场景适配参数的最终提示词。本发明专利技术通过整合图像、语义文本和运动图等多源信息，结合空间匹配、强化学习、物理模型解析等技术，生成包含场景适配参数的精确提示词，显著提升了视频生成的质量和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种用于视频生成的提示词优化方法、系统、设备及介质。

技术介绍

1、随着人工智能技术的飞速发展，ai图生视频技术已成为内容创作领域的重要工具。该技术能够基于用户提供的原始图像和简单的提示词，自动生成具有动态效果的视频内容，极大地丰富了内容创作的手段和形式。特别是近年来，多模态大语言模型(llm)提示词助手的兴起，进一步推动了视频生成技术的发展，使得用户能够通过输入提示词和/或图像，快速生成相应的视频内容。

2、然而，随着视频生成技术的不断进步，用户对生成视频的精细度和控制力提出了更高的要求。为了满足这些需求，一些前沿技术允许用户通过绘制运动区域和轨迹，利用运动图来更精确地描述期望的视频运动方式。这些技术通过让用户在输入图片上绘制动态区域和运动轨迹，实现了对视频生成过程的更精细控制，从而能够生成更加符合用户预期的视频内容。

3、尽管这些新技术为用户提供了更大的创作自由度，但现有的提示词生成助手却未能有效整合这些复杂的输入信息。具体而言，现有的提示词生成助手主要侧重于根据用户输入的提示...

【技术保护点】

1.一种用于视频生成的提示词优化方法，其特征在于，所述方法具体包括：

2.根据权利要求1所述的方法，其特征在于，所述用户上传初始图像后，接收用户输入的语义描述文本，引导用户在图像编辑界面中绘制包含动态遮罩层及运动轨迹矢量层的运动图，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将语义描述文本中的动词要素与运动图中的运动轨迹进行空间匹配，结合注意力机制生成矛盾区域热力图，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述注意力匹配模型满足

5.根据权利要求1所述的方法，其特征在于，所述当检测到矛盾区域热力图存在冲突区域时，...

【技术特征摘要】

1.一种用于视频生成的提示词优化方法，其特征在于，所述方法具体包括：

4.根据权利要求3所述的方法，其特征在于，所述注意力匹配模型满足

5.根据权利要求1所述的方法，其特征在于，所述当检测到矛盾区域热力图存在冲突区域时，通过强化学习策略进行意图分析，生成包含轨迹方向修正、速度分级和物理约束提示的多维度优化方案，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述根据不同的场景类型，通过参数化物理模型解析环境约束，基于运动...

【专利技术属性】
技术研发人员：周详，彭佳铭，邱思源，
申请(专利权)人：广州三七极耀网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人