一种扩散模型的快速信息注入方法、系统、设备及存储介质技术方案

技术编号:41340266 阅读:20 留言:0更新日期:2024-05-20 09:58
本发明专利技术提供了一种扩散模型的快速信息注入方法、系统、设备及存储介质,该方法包括以下步骤:获取目标文本,并将目标文本输入至文本编码网络中获得文本信息特征,文本信息特征注入至扩散模型的隐变量中;获取特定区域图像,将特定区域图像输入至区域编码网络中,获得区域特征;将区域特征输入至信息注入模块中,提取获得中间信息特征,其中,信息注入模块包括:第一自注意力层、第一交叉注意力层以及第一前向层;将中间信息特征与文本信息特征进行融合,进而控制最终生成图片的效果。本发明专利技术使用快速信息注入方法,针对每个物体无需重新微调扩散模型,极大程度提升了扩散模型生成指定物体的时间,提高了扩散模型的易用性。

【技术实现步骤摘要】

本申请涉及图像处理,具体涉及一种扩散模型的快速信息注入方法、系统、设备及存储介质


技术介绍

1、扩散模型作为一种图像生成模型,拥有高质量和高可控的特性,相比于图像生成方法,扩散模型通过多次迭代去噪逐步恢复出图片,使得生成图片在细节上拥有更高的质量。现有的扩散模型一般采用文本来控制生成图片的内容,虽然基于文本的生成方法可以较为方便的描述出期望生成图片当中的内容,但是由于文本本身描述能力的局限性,单纯靠文本无法很好的描述出生成图片中具体的物体细节,例如具体的某个人脸、某只动物或者某件衣服。

2、因此,如何对扩散模型注入信息从而使得其生成的图片带有特定的物体成为了业界关注的问题。现有的信息注入方案一般采用训练的方式进行,即针对特定物体的图片,通过微调扩散模型的方式,让模型有能力生成对应的物体。并在训练过程中绑定该物体和某个文本描述,从而使得生成时设置对应文本,就可以在图片中生成对应的文字。除此之外,也有一些方法采用训练文本特征的方式,让模型学习到如何生成对应的物体。

3、然而这类方法虽然可以有效生成对应物体,但是每个物体都需要重新微调扩本文档来自技高网...

【技术保护点】

1.一种扩散模型的快速信息注入方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的扩散模型的快速信息注入方法,其特征在于,在步骤S3中,将所述区域特征输入至信息注入模块中,提取获得中间信息特征,具体包括以下子步骤:

3.根据权利要求2所述的扩散模型的快速信息注入方法,其特征在于,在步骤S4中,将所述中间信息特征与所述文本信息特征进行融合,具体包括以下子步骤:

4.根据权利要求3所述的扩散模型的快速信息注入方法,其特征在于,在步骤S42中,将所述中间编码特征和所述文本编码特征进行内积,获得内积结果,所述内积结果为特定区域在输入的原始图像中的位置,具...

【技术特征摘要】

1.一种扩散模型的快速信息注入方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的扩散模型的快速信息注入方法,其特征在于,在步骤s3中,将所述区域特征输入至信息注入模块中,提取获得中间信息特征,具体包括以下子步骤:

3.根据权利要求2所述的扩散模型的快速信息注入方法,其特征在于,在步骤s4中,将所述中间信息特征与所述文本信息特征进行融合,具体包括以下子步骤:

4.根据权利要求3所述的扩散模型的快速信息注入方法,其特征在于,在步骤s42中,将所述中间编码特征和所述文本编码特征进行内积,获得内积结果,所述内积结果为特定区域在输入的原始图像中的位置,具体表达式为:

5.根据权利要求1所述的扩散模型的快速信息注入方法,其特征在于,在步骤s2中,所述特定区域图像包括人脸图像、背影图像以及手部图像,将所述特定区域图像输入至区域编码网络中,获得区域...

【专利技术属性】
技术研发人员:李与超苏灿平余清洲刘洛麒
申请(专利权)人:厦门美图之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1