System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像合成方法、装置、电子设备及存储介质制造方法及图纸_技高网

图像合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41305798 阅读:3 留言:0更新日期:2024-05-13 14:51
本申请涉及人工智能领域,提供了一种图像合成方法、装置、电子设备及存储介质,该方法包括:对输入文本和输入图像进行预处理,得到对应的特征;利用图像文本转换模块对输入文本和输入图像进行转换处理,得到输入文本对应的图像嵌入特征以及输入图像对应的文本嵌入特征;将文本特征和文本嵌入特征进行融合,并将融合后特征和背景图输入到第一扩散模型中进行多次迭代处理,得到融合图像;将图像特征和图像嵌入特征进行融合,并将融合后特征和融合图像输入到第二扩散模型进行多次迭代处理,得到合成图像。以此提高合成图像的真实度和自然度,解决了由于视角和场景差异所导致的合成问题,从而实现了更好的图像合成效果。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种图像合成方法、装置、电子设备及存储介质


技术介绍

1、图像合成技术是一种利用计算机视觉和计算机图形学的方法,旨在以逼真的方式将给定图像中的对象插入到另一幅图像中。

2、在将图像合成到新场景中时,通常涉及众多子任务,包括色彩协调、重新照明和阴影生成,以使物体图像能够自然地融合到新图像中。然而,目前合成效果往往在背景融合方面并不自然,同时在光照、颜色和阴影的生成效果上也难以达到理想状态。部分原因在于插入对象的视角与整体背景不同,造成了与背景的融合不够自然。另一方面,基于特定场景进行图片融合的方法,由于图像、文本域的差异,无法简单迁移到其他场景,从而需要重新微调训练以适应新的场景。


技术实现思路

1、有鉴于此,本申请实施例提供了一种图像合成方法、装置、电子设备及存储介质,以解决现有图像合成方法因不同视角和场景差异所导致的合成图像不够真实自然的问题。

2、本申请实施例的第一方面,提供了一种图像合成方法,包括:

3、对输入文本和输入图像进行预处理,得到对应的文本特征和图像特征;利用图像文本转换模块对输入文本和输入图像进行转换处理,得到输入文本对应的图像嵌入特征以及输入图像对应的文本嵌入特征,并将文本特征和文本嵌入特征进行融合得到文本融合特征,将图像特征和图像嵌入特征进行融合得到图像融合特征;获取背景图像的掩膜图像,其中掩膜图像通过输入图像的位置框获得;利用掩膜图像和第一扩散模型对文本融合特征和背景图进行图像融合,并利用第一扩散模型对融合后的图像进行多次迭代处理,得到第一扩散模型输出的融合图像;利用掩膜图像和第二扩散模型对图像融合特征和融合图像进行图像融合,并利用第二扩散模型对融合后的图像进行多次迭代处理,得到第二扩散模型输出的合成图像。

4、本申请实施例的第二方面,提供了一种图像合成装置,包括:

5、预处理模块,被配置为对输入文本和输入图像进行预处理,得到对应的文本特征和图像特征;转换模块,被配置为利用图像文本转换模块对输入文本和输入图像进行转换处理,得到输入文本对应的图像嵌入特征以及输入图像对应的文本嵌入特征,并将文本特征和文本嵌入特征进行融合得到文本融合特征,将图像特征和图像嵌入特征进行融合得到图像融合特征;获取模块,被配置为获取背景图像的掩膜图像,其中掩膜图像通过输入图像的位置框获得;融合模块,被配置为利用掩膜图像和第一扩散模型对文本融合特征和背景图进行图像融合,并利用第一扩散模型对融合后的图像进行多次迭代处理,得到第一扩散模型输出的融合图像;合成模块,被配置为利用掩膜图像和第二扩散模型对图像融合特征和融合图像进行图像融合,并利用第二扩散模型对融合后的图像进行多次迭代处理,得到第二扩散模型输出的合成图像。

6、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

7、本申请实施例的第四方面,提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

8、本申请实施例与现有技术相比存在的有益效果是:

9、本申请通过对输入文本和输入图像进行预处理,得到对应的文本特征和图像特征;利用图像文本转换模块对输入文本和输入图像进行转换处理,得到输入文本对应的图像嵌入特征以及输入图像对应的文本嵌入特征;其次将文本特征和文本嵌入特征进行融合,并以掩膜图像为融合工具,将融合后得到的文本融合特征和背景图输入到第一扩散模型中进行多次迭代处理,得到融合图像;将图像特征和图像嵌入特征进行融合,并将融合后得到的图像融合特征和融合图像输入到第二扩散模型进行多次迭代处理,得到合成图像,由于图像文本转换模块可以弥合文本域和图像域之间的差异,从而为扩散模型提供更有价值的条件指导,使得扩散模型可以将输入图像的几何形状、颜色、光照和阴影与背景图像协调起来,从而得到更加自然的合成图像,解决了因不同视角和场景差异所导致的合成图像不够真实自然的问题。

本文档来自技高网...

【技术保护点】

1.一种图像合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入文本和输入图像进行预处理,得到对应的文本特征和图像特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述图像文本转换模块中包括文本转图像模块和图像转文本模块;

4.根据权利要求3所述的方法,其特征在于,所述文本转图像模块包括第一卷积层、第一自注意力层和第一多层感知器层,所述图像转文本模块包括第二卷积层、第二自注意力层和第二多层感知器层。

5.根据权利要求3所述的方法,其特征在于,所述对所述输入文本进行特征处理,得到所述输入文本的第一文本特征和第二文本特征,对所述输入图像进行特征处理,得到所述输入图像的第一图像特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述利用所述掩膜图像和第一扩散模型对所述文本融合特征和所述背景图进行图像融合,并利用所述第一扩散模型对融合后的图像进行多次迭代处理,得到所述第一扩散模型输出的融合图像,包括:

7.根据权利要求6所述的方法,其特征在于,所述利用所述掩膜图像和第二扩散模型对所述图像融合特征和所述融合图像进行图像融合,并利用所述第二扩散模型对融合后的图像进行多次迭代处理,得到所述第二扩散模型输出的合成图像,包括:

8.一种图像合成装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种图像合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入文本和输入图像进行预处理,得到对应的文本特征和图像特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述图像文本转换模块中包括文本转图像模块和图像转文本模块;

4.根据权利要求3所述的方法,其特征在于,所述文本转图像模块包括第一卷积层、第一自注意力层和第一多层感知器层,所述图像转文本模块包括第二卷积层、第二自注意力层和第二多层感知器层。

5.根据权利要求3所述的方法,其特征在于,所述对所述输入文本进行特征处理,得到所述输入文本的第一文本特征和第二文本特征,对所述输入图像进行特征处理,得到所述输入图像的第一图像特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述利用所述掩膜图像和第一扩散模型对所述文...

【专利技术属性】
技术研发人员:石雅洁
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1