【技术实现步骤摘要】
本专利技术涉及计算机视觉和自然语言处理,尤其涉及一种基于图像的提示词生成方法、装置、设备及存储介质。
技术介绍
1、在计算机视觉领域,图像生成技术近年来取得了显著进展,尤其是基于扩散模型(diffusion models)的图像生成方法,其在多样性和图像质量方面超越了传统的生成对抗网络(gan)。扩散模型通过逐步去噪的过程生成图像,训练过程更为稳定,因而在图像生成的实际应用中表现出更高的可靠性和一致性。这一进展使得图像生成在推广营销、创意设计等领域得到了广泛应用。
2、在金融服务和保险领域,企业经常需要根据不同的业务场景、时间节点、以及区域特点,设计并制作多样化的图片文案以推广其保险、担保贷款等产品。这类定制化的图像需求不仅需要满足业务的多样性,还需要快速响应市场变化。然而,传统的图像生成方法要求用户具备较高的图像设计和业务需求理解能力,特别是在prompt(提示词)的书写方面,这大大限制了非专业用户的使用范围。
3、基于扩散模型的图像生成技术依赖于多模态模型的融合,其中文本模型为生成结果提供语义控制能力。pro
...【技术保护点】
1.一种基于图像的提示词生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于图像的提示词生成方法,其特征在于,在所述将所述目标图像区域输入多模态模型中,得到基于非文本视觉元素的提示词之后,还包括:
3.如权利要求2所述的基于图像的提示词生成方法,其特征在于,所述基于余弦距离的计算结果,从所述基于非文本视觉元素的提示词中选择目标提示词,包括:
4.如权利要求3中所述的基于图像的提示词生成方法,其特征在于,在所述结合所述首选提示词与所述次选提示词得到所述目标提示词之后,还包括:
5.如权利要求1所述的基于图像的提
...【技术特征摘要】
1.一种基于图像的提示词生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于图像的提示词生成方法,其特征在于,在所述将所述目标图像区域输入多模态模型中,得到基于非文本视觉元素的提示词之后,还包括:
3.如权利要求2所述的基于图像的提示词生成方法,其特征在于,所述基于余弦距离的计算结果,从所述基于非文本视觉元素的提示词中选择目标提示词,包括:
4.如权利要求3中所述的基于图像的提示词生成方法,其特征在于,在所述结合所述首选提示词与所述次选提示词得到所述目标提示词之后,还包括:
5.如权利要求1所述的基于图像的提示词生成方法,其特征在于,所述基于所述文本元素和对应的位置信息移除所述提示图像中的文字,生成无文字提示图像,包括:
6.如权利要求1所述的基于图像的提示词生成方法,其特征在于,在所述将所...
【专利技术属性】
技术研发人员:郑喜民,舒畅,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。