System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练和风格迁移方法及电子设备技术_技高网

模型训练和风格迁移方法及电子设备技术

技术编号:40878348 阅读:6 留言:0更新日期:2024-04-08 16:48
本申请实施例提供了一种模型训练和风格迁移方法及电子设备。该模型训练方法包括:获取第一训练数据的第一内容信息以及获取第二训练数据的第二内容信息;将第一内容信息输入至风格迁移模型,以得到第一预测图像;基于第二训练数据的第一风格特征与第一预测图像的第二风格特征,确定第一损失,第一风格特征基于第二训练数据与第二内容信息之间的特征差值确定,第二风格特征基于第一预测图像与第一内容信息之间的特征差值确定;基于第一损失,对风格迁移模型进行训练。这样,采用与内容特征完全解耦的风格特征对风格迁移模型进行训练,能够避免使用训练后的风格迁移模型生成的图像出现内容结构保持较差,和/或,包含不和谐纹理和人工伪影等问题。

【技术实现步骤摘要】

本申请实施例涉及图像处理领域,尤其涉及一种模型训练和风格迁移方法及电子设备


技术介绍

1、近年来,学术界和工业界开始利用计算机人工智能技术自动地生成艺术绘画作品,其中,一个重要的研究方向是如何将图像a的风格迁移到另一张图像b上,生成一张具有图像a的风格和图像b的内容的图像c,即风格迁移。

2、目前,现有技术的风格迁移方法通常是针对图像a提取风格特征,以及针对图像b提取内容特征;然后基于提取的风格特征和内容特征进行风格迁移,生成图像c。现有技术的缺点在于,生成的图像通常会出现内容结构保持较差,和/或,包含不和谐纹理和人工伪影等问题。


技术实现思路

1、为了解决上述技术问题,本申请提供一种模型训练和风格迁移方法及电子设备。

2、第一方面,本申请实施例提供一种模型训练方法,该方法包括:首先,获取第一训练数据的第一内容信息以及获取第二训练数据的第二内容信息,第一训练数据为第一训练图像,第二训练数据包括第二训练图像和/或第一图像描述文本;接着,将第一内容信息输入至风格迁移模型,以得到风格迁移模型输出的第一预测图像;随后,基于第二训练数据的第一风格特征与第一预测图像的第二风格特征,确定第一损失,第一风格特征基于第二训练数据与第二内容信息之间的特征差值确定,第二风格特征基于第一预测图像与第一内容信息之间的特征差值确定;基于第一损失,对风格迁移模型进行训练。

3、这样,基于第二训练数据的风格特征与第一预测图像的风格特征确定的损失,来对风格迁移模型进行训练后,能够使得风格迁移模型能够学习到如何准确地将第二训练数据的风格迁移到任一图像上。

4、由于第二训练数据的风格特征是基于第二训练数据与第二内容信息之间的特征差值确定的,也就是说,第二训练数据的风格特征与内容特征是互补的;这样,第二训练数据的风格特征与内容特征可以完全解耦。相应地,第一预测图像的风格特征是基于第二训练图像与第一内容信息之间的差值信息确定的,因此第一预测图像的风格特征与内容特征也是完全解耦的。进而在训练过程中,只需保证风格迁移模型学习到的风格迁移效果最优即可,模型的参数容易调节;也不会影响风格迁移模型对内容特征的提取,从而能够更好的保持第一训练数据的内容结构,以及能够避免后续使用训练后的风格迁移模型进行风格迁移生成的图像出现内容结构保持较差,和/或,包含不和谐纹理和人工伪影等问题;还能够避免风格迁移模型生成的图像的全局不和谐的问题。

5、此外,针对一个风格迁移模型的训练,第一训练图像可以为一张,第二训练数据包括的第二训练图像可以为一张或者包括的第一图像描述文本可以为一个语句;也就是说,仅需对风格迁移模型训练一次,即可得到能够迁移一种风格的风格迁移模型,进而可以提高模型训练效率,降低模型训练成本。

6、示例性的,第一训练图像用于提供内容,第二训练图像和第一图像描述文本用于提供风格。

7、示例性的,图像的风格是指图像创作中表现出来的一种带有综合性的总体特点。由于艺术家世界观、生活经历、性格气质、文化教养、艺术才能、审美趣味等的不同,在题材选择、主题提炼、情节安排、人物形象塑造、结构布局、语言运用等方面,常呈现出与众不同的特色,形成不可重复的风格。风格是文艺家精神特性的印记,它不是体现在一些作品中或某些艺术因素方面,而是体现在全部创作的内容与形式统一中。其中,图像的风格主要体现在图像的颜色、笔触、纹理、图案等多个维度上。

8、示例性的,图像的内容主要是指图像中的对象,主要体现在对象的结构、对象的轮廓等多个维度上。

9、示例性的,第一内容信息可以为图像,可以称为第一内容图像。第一内容图像可以包括对象的轮廓信息、结构信息等。

10、示例性的,当第二训练数据为第二训练图像时,第二内容信息可以为图像,可以称为第二内容图像。第二内容图像可以包括对象的轮廓信息、结构信息等。当第二训练数据为第一图像描述文本时,第二内容信息为文本。

11、应该理解的是,可以多次执行第一方面中模型训练方法,来对多个风格迁移模型进行训练;这样,可以得到多个风格迁移模型,每个风格迁移模型能够迁移一种风格。

12、根据第一方面,基于第二训练数据的第一风格特征与第一预测图像的第二风格特征,确定第一损失,包括:确定第一风格特征与第二风格特征之间的ln距离,和/或,确定第一风格特征与第二风格特征之间的相似度信息;基于ln距离和/或相似度信息,确定第一损失。后续可以以最小化第一损失为目标,对风格迁移模型进行训练。这样,能够有效的减小第二训练数据的第一风格特征与第一预测图像的第二风格特征之间的差异;进而使得风格迁移模型能够学习到如何准确地将第二训练数据的风格迁移到任一图像上。

13、示例性的,ln距离可以包括l1距离(曼哈顿距离)、l2距离(欧式距离)、l-inf距离(切比雪夫距离)等等,本申请对此不作限制。

14、示例性的,可以将ln距离作为第一损失。其中,ln距离越小时,第一风格特征与第二风格特征之间的差异越小;这样,能够有效减小第一风格特征与第二风格特征之间的差异。

15、示例性的,可以将1与相似度信息的差值,作为第一损失。其中,1与相似度信息的差值越小时,第一风格特征与第二风格特征之间的差异越小;这样,能够有效减小第一风格特征与第二风格特征之间的差异。

16、示例性的,可以对ln距离和相似度信息进行加权计算,确定第一损失。这样,通过结合ln距离和相似度来确定第一损失,能够对风格迁移模型进行更多约束,进而能够让风格迁移模型学习到如何更精确地将第二训练数据的风格迁移到任一图像上。

17、根据第一方面,或者以上第一方面的任意一种实现方式,该方法还包括:提取第二训练数据的第一特征以及提取第二内容信息的第二特征;基于第一特征和第二特征之间的差值,确定第一风格特征。这样,通过将第二训练数据和第二内容信息映射到多维空间所得到特征之间的差值,来确定第一风格特征,能够得到更准确的第一风格特征。

18、根据第一方面,或者以上第一方面的任意一种实现方式,该方法还包括:提取第一预测图像的第三特征以及提取第一内容信息的第四特征;基于第三特征和第四特征之间的差值,确定第二风格特征。这样,通过将第一预测图像和第一内容信息映射到多维空间所得到特征之间的差值,来确定第二风格特征,能够得到更准确的第二风格特征。

19、根据第一方面,或者以上第一方面的任意一种实现方式,提取第二训练数据的第一特征以及提取第二内容信息的第二特征,包括:将第二训练数据输入至第一开域多模态神经网络模型,以得到第一开域多模态神经网络模型输出的第一特征;将第二内容信息输入至第二开域多模态神经网络模型,以得到第二开域多模态神经网络模型输出的第二特征。

20、示例性的,开域多模态神经网络模型,例如,clip(contrastive language-imagepretraining,对比语言图像预训练;在2021年提出的一种在海量(4亿)文本本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第二训练数据的第一风格特征与所述第一预测图像的第二风格特征,确定第一损失,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述提取所述第二训练数据的第一特征以及提取所述第二内容信息的第二特征,包括:

6.根据权利要求4所述的方法,其特征在于,所述提取所述第一预测图像的第三特征以及提取所述第一内容信息的第四特征,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取第一训练数据的第一内容信息,包括:

8.根据权利要求7所述的方法,其特征在于,在所述将所述第一训练图像输入至第一扩散模型之前,所述获取第一训练数据的第一内容信息,还包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述第二训练数据为第二训练图像,所述获取第二训练数据的第二内容信息,包括:

10.根据权利要求9所述的方法,其特征在于,在所述将所述第二训练图像输入至第二扩散模型之前,所述获取第二训练数据的第二内容信息,还包括:

11.根据权利要求1至8任一项所述的方法,其特征在于,所述第二训练数据为第一图像描述文本,所述第一图像描述文本包括图像内容描述文本和图像风格描述文本;

12.根据权利要求1至10任一项所述的方法,其特征在于,所述第二训练数据为第二训练图像,在所述基于所述第一损失,对所述风格迁移模型进行训练之前,所述方法还包括:

13.根据权利要求1至12任一项所述的方法,其特征在于,所述风格迁移模型为第三扩散模型,所述将所述第一内容信息输入至风格迁移模型,以得到所述风格迁移模型输出的第一预测图像,包括:

14.一种风格迁移方法,其特征在于,所述方法包括:

15.根据权利要求14所述的方法,其特征在于,所述获取第二测试数据,包括:

16.根据权利要求14所述的方法,其特征在于,所述获取第二训练数据,包括:

17.根据权利要求15所述的方法,其特征在于,所述获取所述第二测试数据的风格对应的目标风格迁移模型,包括:

18.根据权利要求17所述的方法,其特征在于,上述权利要求1至权利要求13任一项训练的风格迁移模型包括属于多个风格迁移模型组的多个风格迁移模型,一个风格迁移模型组包括多个风格迁移模型,一个风格迁移模型组包括的多个风格迁移模型对应的风格迁移强度不同,所述多个风格迁移模型组对应的风格不同;

19.根据权利要求16所述的方法,其特征在于,所述获取所述第二测试数据的风格对应的目标风格迁移模型,包括:

20.根据权利要求19所述的方法,其特征在于,所述风格迁移模型为第三扩散模型,所述方法还包括:

21.根据权利要求14至20任一项所述的方法,其特征在于,所述获取所述第一测试图像的第三内容信息,包括:

22.根据权利要求14至20任一项所述的方法,其特征在于,所述风格迁移模型为第三扩散模型,所述将所述第三内容信息输入至所述风格迁移模型,以得到所述风格迁移模型输出的第三预测图像,包括:

23.一种电子设备,其特征在于,包括:

24.一种电子设备,其特征在于,包括:

25.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求1至权利要求13中任一项所述的模型训练方法。

26.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求14至权利要求22中任一项所述的风格迁移方法。

27.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序运行在计算机或处理器上时,使得所述计算机或所述处理器执行如权利要求1至22任一项所述的方法。

28.一种计算机程序产品,其特征在于,所述计算机程序产品包含软件程序,当所述软件程序被计算机或处理器执行时,使得权利要求1至22任一项所述的方法的步骤被执行。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第二训练数据的第一风格特征与所述第一预测图像的第二风格特征,确定第一损失,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述提取所述第二训练数据的第一特征以及提取所述第二内容信息的第二特征,包括:

6.根据权利要求4所述的方法,其特征在于,所述提取所述第一预测图像的第三特征以及提取所述第一内容信息的第四特征,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取第一训练数据的第一内容信息,包括:

8.根据权利要求7所述的方法,其特征在于,在所述将所述第一训练图像输入至第一扩散模型之前,所述获取第一训练数据的第一内容信息,还包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述第二训练数据为第二训练图像,所述获取第二训练数据的第二内容信息,包括:

10.根据权利要求9所述的方法,其特征在于,在所述将所述第二训练图像输入至第二扩散模型之前,所述获取第二训练数据的第二内容信息,还包括:

11.根据权利要求1至8任一项所述的方法,其特征在于,所述第二训练数据为第一图像描述文本,所述第一图像描述文本包括图像内容描述文本和图像风格描述文本;

12.根据权利要求1至10任一项所述的方法,其特征在于,所述第二训练数据为第二训练图像,在所述基于所述第一损失,对所述风格迁移模型进行训练之前,所述方法还包括:

13.根据权利要求1至12任一项所述的方法,其特征在于,所述风格迁移模型为第三扩散模型,所述将所述第一内容信息输入至风格迁移模型,以得到所述风格迁移模型输出的第一预测图像,包括:

14.一种风格迁移方法,其特征在于,所述方法包括:

15.根据权利要求14所述的方法,其特征在于,所述获取第二测试数据,包括:

16.根据权利要求14所述的方法,其特征在于,所述获取第二训练数据,包括:

17.根据权利要求15所述的方法,其特征在...

【专利技术属性】
技术研发人员:王志忠章晓婷黄泽毅
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1