System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种图像修补方法及装置、一种电子设备制造方法及图纸_技高网

一种图像修补方法及装置、一种电子设备制造方法及图纸

技术编号:39995778 阅读:4 留言:0更新日期:2024-01-09 02:45
本发明专利技术提供一种图像修补方法,包括:获取配对条件‑图像数据集和大规模图文配对数据集;获取预训练隐变量扩散生成模型;构建条件控制网络,所述条件控制网络与预训练隐变量扩散生成模型同构;基于配对条件‑图像数据集训练条件控制网络,获得训练好的条件控制网络;根据大规模图文配对数据集,基于预训练隐变量扩散生成模型,微调训练得到隐变量扩散修补模型;基于条件控制网络和隐变量扩散修补模型,生成待修补区域图像;基于符号距离场SDF构建平滑权重图,将所述待修补区域图像融合至原图像中;输出完成修补的图像。本发明专利技术还包括对应的图像修补装置和电子设备。本发明专利技术的方案能够输出高保真的修补图像,计算开销小。

【技术实现步骤摘要】

本专利技术属于图像处理领域,尤其涉及一种图像修补方法及装置。


技术介绍

1、图像修补是人工智能图像处理领域其中一个分支,可以通过自然语言描述限定以处理相应的图像,实现一定程度上对模型生成内容的控制。

2、近年来,得益于算力的发展和大数据的累积,通过自然语音控制修补图像的效果已经与画师相差无几,部分图像处理模型的输出效果甚至超越了画师的水平,另一方面,图像修补技术的迅猛发展也基于扩散生成模型这项技术的突破。

3、然而,仅仅依靠自然语言的描述来生成一张完整的图像,仍然具有大量的不可控因素,此外,在实际的设计生产类工作中,往往需要在各个图层、文字、特效及其的组合中,对整体图像的局部进行多次调整,才能够输出一个完整的图像,调整图像参数的过程冗长。因此,需要在扩散模型的生成过程中导入更多、更完整的控制因素,以提升图像处理的能力,可以进一步促进当前扩散生成模型技术的应用与落地。

4、图像修补领域目前还存在部分缺陷:(1)基于扩散生成模型的算法主要输入仍为自然语言文本,无法做到对画面布局、人体姿态、物体轮廓、物体间相对位置、局部重绘等方面高精细度控制,限制了其实际应用的场景;(2)基于扩散生成模型或是传统算法、深度学习算法等处理手段修补的图像会存在一些过渡、融合不自然的瑕疵,这往往还需要一些特殊后处理操作才能在一定程度上修复,但问题仍然存在,并且以隐变量扩散模型为代表的图像修补算法,还会导致不需要修补的图像区域出现失真的现象。

5、基于以上,本申请提供了解决以上技术问题的技术方案。

/>

技术实现思路

1、针对现有技术中图像修补技术训练复杂、融合效果差的问题,本专利技术提供了一种图像修补方法,包括以下步骤:

2、步骤s1、获取配对条件-图像数据集和大规模图文配对数据集;

3、步骤s2、获取预训练隐变量扩散生成模型g1,预训练隐变量扩散生成模型g1包括一阶段自编码网络vae、去噪网络u-net、以及文本编码器text encoder;

4、步骤s3、构建条件控制网络c1,所述条件控制网络c1与预训练隐变量扩散生成模型同构;

5、步骤s4、基于配对条件-图像数据集训练条件控制网络c1,获得训练好的条件控制网络c;

6、步骤s5、根据大规模图文配对数据集,基于预训练隐变量扩散生成模型g1,微调训练得到隐变量扩散修补模型ginpaint;

7、步骤s6、基于条件控制网络c和隐变量扩散修补模型ginpaint,生成待修补区域图像;

8、步骤s7、基于符号距离场sdf构建平滑权重图,将所述待修补区域图像融合至原图像中;

9、步骤s8、输出完成修补的图像。

10、在本专利技术的一个具体实施方式中,步骤s2还包括:

11、步骤s21、基于大规模图文配对数据集对预训练隐变量扩散生成模型的文本编码器text encoder进行单独预训练;

12、步骤s22、根据所述大规模图文配对数据集,采用对比自然语言-图像预训练框架预训练文本编码器text encoder;

13、步骤s23、通过多阶段训练模式训练自编码网络vae和图像去噪网络u-net。

14、在本专利技术的一个具体实施方式中,步骤s23还包括:

15、所述多阶段训练模式包括两级训练阶段;

16、步骤s231、采用数据集中的图像部分,训练自编码网络vae;

17、步骤s232、固定自编码网络vae和文本编码器text encoder,基于大规模图文配对数据集,在原图像中增加随机噪声,训练去噪网络u-net。

18、在本专利技术的一个具体实施方式中,步骤s4中还包括:

19、步骤s41、以零初始化全部参数;

20、步骤s42、固定预训练隐变量扩散生成模型g1参数,将配对条件-图像数据集中的输入条件图像作为条件控制网络c1的输入;

21、步骤s43、将条件控制网络c1中的不同层的中间状态输出至g1的对应网络层;

22、步骤s44、优化条件控制网络c1中与去噪网络u-net相应的损失项,得到训练好的条件控制网络c。

23、在本专利技术的一个具体实施方式中,步骤s5中还包括:

24、步骤s51、将预训练隐变量扩散生成模型g1中的去噪网络u-net浅层输入增加多层网络通道,并作为隐变量扩散修补模型ginpaint的初始化数值;

25、步骤s52、设计多种随机掩膜生成策略;

26、步骤s53、在大规模图文数据集上对初始化的ginpaint进行微调训练,得到训练后的隐变量扩散修补模型ginpaint。

27、在本专利技术的一个具体实施方式中,步骤s6中还包括:

28、步骤s61、将掩膜作为去噪模型的输入,与条件图像点相乘,得到乘积结果;

29、步骤s62、将乘积结果输入条件控制网络c;

30、步骤s63、将条件控制网络c的中间层状态输入至隐变量扩散修补模型ginpaint对应的中间层,实现待修补区域内的图像生成控制。

31、在本专利技术的一个具体实施方式中,步骤s7中还包括:

32、步骤s71、采用正弦函数作为激活函数,使符号距离场sdf的取值范围压缩至[0,1],作为平滑权重图;

33、步骤s72、所述平滑权重图与掩膜、修补区域图像、原图像相乘,输出完成修补的图像。

34、在本专利技术的一个具体实施方式中,步骤s7中还包括:

35、符号距离场sdf由下式计算而得:

36、

37、平滑权重图由下式计算而得:

38、

39、图像融合由下式计算而得:

40、iout=iinp*mask+iinp*(1-mask)*(1-weight)+iori*weight

41、其中,d为欧氏距离函数,像素x到二维图形轮廓编辑的距离为ω,为二维图形轮廓,distance为预设的到二维图形轮廓距离阈值,mask为掩膜图像,iinp为修补后的图像,iori为原图,iout为融合后的高保真图像。

42、本专利技术还提供一种图像修补装置,包括:

43、获取模块,用于获取配对条件-图像数据集、大规模图文配对数据集和预训练隐变量扩散生成模型g1,其中,预训练隐变量扩散生成模型g1包括一阶段自编码网络vae、去噪网络u-net、以及文本编码器text encoder;

44、条件控制网络构建模块,用于构建条件控制网络c1,所述条件控制网络c1与预训练隐变量扩散生成模型同构;

45、条件控制网络训练模块,基于配对条件-图像数据集训练条件控制网络c1,获得训练好的条件控制网络c;

46、隐变量扩散修补模型训练模块,用于根据大规模图文配对数据集,基于预训练隐变量扩散生成模型g1,微调训练得到隐变量扩散修补模本文档来自技高网...

【技术保护点】

1.一种图像修补方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的图像修补方法,其特征在于,步骤S2还包括:

3.根据权利要求2所述的图像修补方法,其特征在于,步骤S23还包括:

4.根据权利要求1所述的图像修补方法,其特征在于,步骤S4中还包括:

5.根据权利要求1所述的图像修补方法,其特征在于,步骤S5中还包括:

6.根据权利要求5所述的图像修补方法,其特征在于,步骤S6中还包括:

7.根据权利要求1所述的图像修补方法,其特征在于,步骤S7中还包括:

8.根据权利要求7所述的图像修补方法,其特征在于,步骤S7中还包括:

9.一种图像修补装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的一种图像修补方法。

【技术特征摘要】

1.一种图像修补方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的图像修补方法,其特征在于,步骤s2还包括:

3.根据权利要求2所述的图像修补方法,其特征在于,步骤s23还包括:

4.根据权利要求1所述的图像修补方法,其特征在于,步骤s4中还包括:

5.根据权利要求1所述的图像修补方法,其特征在于,步骤s5中还包括:

6.根据权利要求5所述的图像修补方法,其特征在于,...

【专利技术属性】
技术研发人员:章伟希
申请(专利权)人:北京汉仪创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1