基于图像的提示词生成方法、装置、设备及存储介质制造方法及图纸

技术编号：43925309 阅读：33 留言：0更新日期：2025-01-03 13:30

本发明专利技术涉及计算机视觉和自然语言处理技术领域，公开了一种基于图像的提示词生成方法，通过从提示图像中获取非文本视觉元素和文本元素及其位置信息，通过筛选和处理这些元素，移除图像中的文本内容并生成无文字的提示图像。基于目标非文本视觉元素，从无文字的提示图像中裁剪出相应的图像区域，并将其输入多模态模型，生成与这些视觉元素相关的提示词。本发明专利技术通过自动识别图像中的非文本视觉元素和文本元素，生成无文字的图像，避免了文字干扰。生成与图像内容高度相关的提示词，实现了提示词生成的精准性和自动化，提高了处理效率和提示词质量。有效降低了用户编写提示词的复杂性，使得用户可以通过简单的图像交互生成高质量、语义准确的提示词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理，尤其涉及一种基于图像的提示词生成方法、装置、设备及存储介质。

技术介绍

1、在计算机视觉领域，图像生成技术近年来取得了显著进展，尤其是基于扩散模型(diffusion models)的图像生成方法，其在多样性和图像质量方面超越了传统的生成对抗网络(gan)。扩散模型通过逐步去噪的过程生成图像，训练过程更为稳定，因而在图像生成的实际应用中表现出更高的可靠性和一致性。这一进展使得图像生成在推广营销、创意设计等领域得到了广泛应用。

2、在金融服务和保险领域，企业经常需要根据不同的业务场景、时间节点、以及区域特点，设计并制作多样化的图片文案以推广其保险、担保贷款等产品。这类定制化的图像需求不仅需要满足业务的多样性，还需要快速响应市场变化。然而，传统的图像生成方法要求用户具备较高的图像设计和业务需求理解能力，特别是在prompt(提示词)的书写方面，这大大限制了非专业用户的使用范围。

3、基于扩散模型的图像生成技术依赖于多模态模型的融合，其中文本模型为生成结果提供语义控制能力。pro...

【技术保护点】

1.一种基于图像的提示词生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于图像的提示词生成方法，其特征在于，在所述将所述目标图像区域输入多模态模型中，得到基于非文本视觉元素的提示词之后，还包括：

3.如权利要求2所述的基于图像的提示词生成方法，其特征在于，所述基于余弦距离的计算结果，从所述基于非文本视觉元素的提示词中选择目标提示词，包括：

4.如权利要求3中所述的基于图像的提示词生成方法，其特征在于，在所述结合所述首选提示词与所述次选提示词得到所述目标提示词之后，还包括：

5.如权利要求1所述的基于图像的提示词生成方法，其特征...

【技术特征摘要】

1.一种基于图像的提示词生成方法，其特征在于，包括以下步骤：

4.如权利要求3中所述的基于图像的提示词生成方法，其特征在于，在所述结合所述首选提示词与所述次选提示词得到所述目标提示词之后，还包括：

5.如权利要求1所述的基于图像的提示词生成方法，其特征在于，所述基于所述文本元素和对应的位置信息移除所述提示图像中的文字，生成无文字提示图像，包括：

6.如权利要求1所述的基于图像的提示词生成方法，其特征在于，在所述将所...

【专利技术属性】
技术研发人员：郑喜民，舒畅，陈远旭，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人