一种神经网络的训练方法、图像处理方法以及相关设备技术

技术编号:29207119 阅读:23 留言:0更新日期:2021-07-10 00:43
本申请实施例公开一种神经网络的训练方法、图像处理方法以及相关设备,该方法可用于人工智能领域的图像处理领域中,方法包括:获取第一训练数据集和第二训练数据集,第一训练数据集中的第一训练图像为将源域的带标签的训练图像与目标域的带标签的训练图像在像素层级进行混合后得到,第二训练数据集包括来自于目标域的无标签的训练图像;根据第一训练数据集对第一神经网络进行训练,以得到第一教师网络;根据第一教师网络和第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练。增加了教师网络在训练过程的难度,从而提高了训练后的教师网络对目标域的图像的处理能力,有利于提高训练后的学生网络在处理目标域的图像时的性能。图像时的性能。图像时的性能。

【技术实现步骤摘要】
一种神经网络的训练方法、图像处理方法以及相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种神经网络的训练方法、图像处理方法以及相关设备。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。利用人工智能进行图像处理是人工智能常见的一个应用方式。
[0003]目前,广泛存在的数据域鸿沟问题,导致图像特征提取的泛化能力非常低,训练好的神经网络只能在与来自于源域的训练数据相同场景的应用数据上部署,若将训练好的神经网络应用于处理来自于目标域的图像,得到的预测结果性能比较差。
[0004]因此,一种提升神经网络在处理目标域的图像时的性能的方案亟待推出。

技术实现思路

[0005]本申请实施例提供了一种神经网络的训练方法、图像处理方法以及相关设备,用于提高了训练后的教师网络对目标域的图像的处理能力,也即提高了训练后的教师网络的泛化能力,从而教师网络可以为来自于目标域的无标签的训练图像生成性能更好的预测结果,也即学生网络的训练数据的质量更高,有利于提高训练后的学生网络在处理目标域的图像时的性能。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例提供一种神经网络的训练方法,可用于人工智能领域的图像处理领域中,训练设备获取第一训练数据集和第二训练数据集,其中,第一训练数据集包括至少一个带标签的第一训练图像,第一训练图像为将来自于源域的带标签的训练图像与来自于目标域的带标签的训练图像在像素层级进行混合后得到,第一训练图像的标签为根据第一标签和第二标签得到,第一标签与来自于源域的带标签的训练图像对应,第二标签与来自于目标域的带标签的训练图像对应,第二训练数据集包括来自于目标域的无标签的训练图像。训练设备采用第一损失函数,根据第一训练数据集中的第一训练图像对第一神经网络进行训练,直至满足预设条件,以得到第一教师网络,第一损失函数指示与第一训练图像对应的预测结果和第一训练图像的标签(也可以称为第一训练图像的期望结果)之间的相似度,与第一训练图像对应的预测结果为第一神经网络输出的,第一教师网络为执行过训练操作的第一神经网络。训练设备根据第一教师网络和第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练直至满足预设条件,以得到第二学生网络,第二学生网络为执行过训练操作的第一学生网络。知识蒸馏指的是在对学生网络进行训练的过程中
的训练目标为拉近学生网络输出的预测结果与教师网络输出的预测结果之间的相似度,以使学生网络学习到教师网络的图像处理能力。
[0008]本实现方式中,利用第一训练数据集训练得到教师网络,再采用知识蒸馏的方式,利用教师网络和第二训练数据集对学生网络进行训练,由于第一训练数据集中的训练图像是将来自于源域的带标签的训练图像与来自于目标域的带标签的训练图像在像素层级进行混合后得到,也即增加了教师网络在训练过程的难度,从而提高了训练后的教师网络对目标域的图像的处理能力,也即提高了训练后的教师网络的泛化能力,从而教师网络可以为来自于目标域的无标签的训练图像生成性能更好的预测结果,也即学生网络的训练数据的质量更高,有利于提高训练后的学生网络在处理目标域的图像时的性能。
[0009]在第一方面的一种可能实现方式中,训练设备可以采用裁剪

混合(CutMix)技术,对待混合的源域图像和待混合的目标域图像进行混合,以生成第一训练图像,第一训练图像中既有来自于目标域的部分,也有来自于源域的部分。训练设备还会将与待混合的源域图像对应的第一标签(也可以称为期望结果)和与待混合的目标域图像对应的第二标签进行混合,以得到前述第一训练图像的标签。
[0010]在第一方面的一种可能实现方式中,训练设备可以采用混合(Mixup)技术,对带标签的待混合的源域图像和带标签的待混合的目标域图像进行混合,以生成第一训练图像,训练设备为与待混合的源域图像对应的第一标签分配第一权重,为与待混合的目标域图像对应的第二标签分配第二权重,并将第一标签和第二标签进行加权求和以得到第一训练图像的标签(也可以称为第一训练图像的期望结果)。
[0011]在第一方面的一种可能实现方式中,方法还包括:训练设备采用第二损失函数,根据第三训练数据集中的第三训练图像对第一神经网络进行训练,直至满足预设条件,以得到第二教师网络。其中,第三训练数据集包括来自于源域的带标签的训练图像和来自于目标域的带标签的训练图像;第二损失函数指示第三训练图像的预测结果与第三训练图像的标签(也可以称为第三训练图像的期望结果)之间的相似度,第三训练图像的预测结果为第一神经网络输出的;第二教师网络为执行过训练操作的第一神经网络。训练设备根据第一教师网络和第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练直至满足预设条件,以得到第二学生网络,包括:训练设备根据第一教师网络、第二教师网络和第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练直至满足预设条件,以得到第二学生网络。
[0012]本实现方式中,还会直接将来自于源域的带标签的训练图像和来自于目标域的带标签的训练图像进行图像层级混合得到第三训练数据集,并根据第三训练数据集训练得到第二教师网络,由于第一训练图像从像素层级打破了目标域图像和源域图像之间的数据鸿沟(gap),增加了第一教师网络在训练过程的难度,导致第一教师网络对目标域中没有规则外形的物体(例如天空、墙、大海等)的分类更为准确;第二教师网络对目标域图像的整体信息更清楚,对需要目标域中借助形状进行预测的物体(例如路灯、红绿灯等)分类更为准确,第一教师网络和第二教师网络输出的预测结果互补,综合第一教师网络和第二教师网络的预测结果作为学生网络的学习目标,有利于进一步提高第二学生网络在处理目标域的图像时的精度。
[0013]在第一方面的一种可能实现方式中,训练设备根据第一教师网络、第二教师网络
和第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练,包括:训练设备获取第二训练图像,第二训练图像为第二训练数据集中任一个训练图像;训练设备利用第一教师网络对第二训练图像进行处理,以生成与第二训练图像对应的第一预测结果;训练设备利用第二教师网络对第二训练图像进行处理,以生成与第二训练图像对应的第二预测结果。训练设备对第一预测结果和第二预测结果进行加权求和,以得到与第二训练图像对应的目标预测结果;可选地,第一预测结果和第二预测结果的权重可以分别为0.5和0.5,也即训练设备可以对第一预测结果和第二预测结果进行平均,以得到该目标预测结果。训练设备利用第一学生网络对第二训练图像进行处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,所述方法包括:获取第一训练数据集和第二训练数据集,其中,所述第一训练数据集包括至少一个带标签的第一训练图像,所述第一训练图像为将来自于源域的带标签的训练图像与来自于目标域的带标签的训练图像在像素层级进行混合后得到,所述第一训练图像的标签为根据第一标签和第二标签得到,所述第一标签与所述来自于源域的带标签的训练图像对应,所述第二标签与所述来自于目标域的带标签的训练图像对应,所述第二训练数据集包括来自于目标域的无标签的训练图像;根据所述第一训练数据集对第一神经网络进行训练,直至满足预设条件,以得到第一教师网络,所述第一教师网络为执行过训练操作的所述第一神经网络;根据所述第一教师网络和所述第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练直至满足预设条件,以得到第二学生网络,所述第二学生网络为执行过训练操作的所述第一学生网络。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据第三训练数据集对所述第一神经网络进行训练,直至满足预设条件,以得到第二教师网络,其中,所述第三训练数据集包括所述来自于源域的带标签的训练图像和所述来自于目标域的带标签的训练图像,所述第二教师网络为执行过训练操作的所述第一神经网络;所述根据所述第一教师网络和所述第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练直至满足预设条件,以得到第二学生网络,包括:根据所述第一教师网络、所述第二教师网络和所述第二训练数据集,采用知识蒸馏的方式,对所述第一学生网络进行训练直至满足预设条件,以得到所述第二学生网络。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一教师网络、所述第二教师网络和所述第二训练数据集,采用知识蒸馏的方式,对所述第一学生网络进行训练,包括:获取第二训练图像,所述第二训练图像为所述第二训练数据集中任一个训练图像;利用所述第一教师网络对所述第二训练图像进行处理,以生成与所述第二训练图像对应的第一预测结果;利用所述第二教师网络对所述第二训练图像进行处理,以生成与所述第二训练图像对应的第二预测结果,并对所述第一预测结果和所述第二预测结果进行加权求和,以得到与所述第二训练图像对应的目标预测结果;利用所述第一学生网络对所述第二训练图像进行处理,以生成与所述第二训练图像对应的第三预测结果;根据目标损失函数,对所述第一学生网络进行训练,所述目标损失函数指示所述第三预测结果与所述目标预测结果之间的相似度。4.根据权利要求1至3任一项所述的方法,其特征在于,所述得到第二学生网络之后,所述方法还包括:通过所述第二学生网络,对所述第二训练数据集中的第二训练图像进行处理,以生成与所述第二训练图像对应的预测结果,根据与所述第二训练图像对应的预测结果确定所述第二训练图像的标签;
根据所述来自于源域的带标签的训练图像、所述来自于目标域的带标签的训练图像和带标签的所述第二训练图像,执行像素层级的混合操作,以得到更新后的第一训练数据集;根据所述更新后的第一训练数据集对所述第一神经网络进行训练,直至满足预设条件,以得到更新后的第一教师网络;根据所述更新后的第一教师网络和所述第二训练数据集,采用知识蒸馏的方式,对所述第一学生网络进行训练直至满足预设条件,以得到更新后的第二学生网络,所述更新后的第二学生网络为执行过训练操作的所述第一学生网络。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一教师网络、所述第二教师网络和所述第二训练数据集,采用知识蒸馏的方式,对第一学生网络进行训练,包括:根据所述第一教师网络、所述第二教师网络和所述第二训练数据集,采用知识蒸馏的方式,对所述第一学生网络进行训练,并根据第四训练数据集对所述第一学生网络进行训练,所述第四训练数据集包括所述来自于目标域的带标签的训练图像。6.根据权利要求1至5任一项所述的方法,其特征在于,源域的训练图像和目标域的训练图像来源于不同的图像生成装置,或者,源域的训练图像和目标域的训练图像来源于不同的图像采集地点,或者,源域的训练图像的图像采集时刻和目标域的训练图像的图像采集时刻不同,或者,源域的训练图像中的拍摄对象和目标域的训练图像中的拍摄对象为不同的对象类型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述第一神经网络和所述第一学生网络均用于执行以下中的任一项任务:图像语义分割、图像分类或对图像进行物体检测。8.一种图像处理方法,其特征在于,所述方法包括:获取来自于目标域的待处理图像;将所述来自于目标域的待处理图像输入第二学生网络,以通过所述第二学生网络对所述待处理图像进行处理,得到所述第二学生网络输出的预测结果;其中,所述第二学生网络为根据第一教师网络和第二训练数据集,采用知识蒸馏的方式训练得到的,所述第一教师网络为根据第一训练数据集训练得到的,所述第一训练数据集包括至少一个带标签的第一训练图像,所述第一训练图像为将来自于源域的带标签的训练图像与来自于目标域的带标签的训练图像在像素层级进行混合后得到,所述第一训练图像的标签为根据第一标签和第二标签得到,所述第一标签与所述来自于源域的带标签的训练图像对应,所述第二标签与所述来自于目标域的带标签的训练图像对应,所述第二训练数据集包括来自于目标域的无标签的训练图像。9.根据权利要求8所述的方法,其特征在于,所述第二学生网络为根据所述第一教师网络、第二教师网络和所述第二训练数据集,采用知识蒸馏的方式训练得到的,所述第二教师网络为根据第三训练数据集训练得到的,所述第三训练数据集包括所述来自于源域的带标签的训练图像和所述来自于目标域的带标签的训练图像。10.一种神经网络的训练装置,其特征在于,所述装置包括:获取模块,用于获取第一训练数据集和第二训练数据集,其中,所述第一训练数据集包括至少一个带标签的第一训练图像,所述第一训练图像为将来自于源域的带标签的训练图
像与来自于目标域的带标签的训练图像在像素层级进行混合后得到,所述第一训练图像的标签为根据第一标签和第二标签得到,所述第一标签与所述来自于源域的带标签的训练图像对应,所述...

【专利技术属性】
技术研发人员:陈帅军何建忠贾旭刘健庄
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1