模型训练及图像处理方法、装置、设备、存储介质制造方法及图纸

技术编号:33291313 阅读:16 留言:0更新日期:2022-05-01 00:10
本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品,其中该方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。的第一模型。的第一模型。

【技术实现步骤摘要】
模型训练及图像处理方法、装置、设备、存储介质


[0001]本申请涉及但不限人工智能领域,尤其涉及一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品。

技术介绍

[0002]伴随着计算机视觉的技术不断发展,无标签数据的获取越来越容易。然而,对于计算机视觉领域海量的无标签数据集,使用人工的方式进行标注,会存在漏标的问题,并且消耗大量人工成本。相关技术中,可以采用自监督训练算法,对神经网络模型进行训练。自监督训练算法不需要提供带标签的数据也能训练模型,并为计算机视觉领域各类任务提供预训练后的模型。相比于有监督训练算法,自监督训练算法在减少有监督偏见、长尾问题、以及拟合海量业务数据集等方面有着明显优势。
[0003]但是,相关技术中的自监督训练算法仅能在单目标图像上进行模型训练,而无法适用于多目标图像上的模型训练,通用性较差。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品。
[0005]本申请实施例的技术方案是这样实现的:
[0006]一方面,本申请实施例提供一种模型训练方法,所述方法包括:
[0007]基于第一图像样本,确定第一场景图像和第二场景图像;所述第一场景图像与所述第二场景图像之间具有重叠区域;
[0008]利用待训练的第一模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征;
[0009]基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标损失值;
[0010]基于所述目标损失值,对所述第一模型的模型参数进行至少一次更新,得到训练后的所述第一模型。
[0011]另一方面,本申请实施例提供一种图像处理方法,所述方法包括:
[0012]获取待处理图像;
[0013]利用已训练的第四模型,对所述待处理图像进行处理,得到处理结果;其中,所述第四模型包括以下至少之一:采用上述模型训练方法得到的第一模型,采用上述模型训练方法得到的第三模型。
[0014]再一方面,本申请实施例提供一种模型训练装置,所述装置包括:
[0015]第一确定模块,用于基于第一图像样本,确定第一场景图像和第二场景图像;所述
第一场景图像与所述第二场景图像之间具有重叠区域;
[0016]第一提取模块,用于利用待训练的第一模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征;
[0017]第二确定模块,用于基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标损失值;
[0018]第一更新模块,用于基于所述目标损失值,对所述第一模型的模型参数进行至少一次更新,得到训练后的所述第一模型。
[0019]再一方面,本申请实施例提供一种图像处理装置,所述装置包括:
[0020]第三获取模块,用于获取待处理图像;
[0021]第二检测模块,用于利用已训练的第四模型,对所述待处理图像进行目标检测,得到检测结果;其中,所述第四模型包括以下至少之一:采用上述模型训练方法得到的第一模型,采用上述模型训练方法得到的第三模型。
[0022]又一方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
[0023]又一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
[0024]又一方面,本申请实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算机设备中运行时,所述展示设备中的处理器执行用于实现上述方法中的部分或全部步骤。
[0025]又一方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。
[0026]本申请实施例中,基于第一图像样本,确定第一场景图像和第二场景图像;由于第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、以及第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。这样,由于第一场景图像与第二场景图像之间具有重叠区域,因而可以提高第一场景图像与第二场景图像之间的全局相似性,进而通过保持第一模型和第二模型分别对第一场景图像与第二场景图像处理后得到的第一场景特征和第二场景特征、以及第三场景特征和第四场景特征之间的一致性,可以实现在第一图像样本上的自监督训练过程,提高训练后的第一模型的性能,并且对于单目标图像以及多目标图像上的模型训练均能适用,可以大大降低训练过程中对于样本数据质量的高要求和高依赖性,具有更好的通用性。
附图说明
[0027]图1为本申请实施例提供的一种模型训练方法的实现流程示意图;
[0028]图2为本申请实施例提供的一种模型训练方法的实现流程示意图;
[0029]图3为本申请实施例提供的一种模型训练方法的实现流程示意图;
[0030]图4为本申请实施例提供的一种模型训练方法的实现流程示意图;
[0031]图5为本申请实施例提供的一种图像处理方法的实现流程示意图;
[0032]图6A为本申请实施例提供的一种自监督预训练方法的实现流程示意图;
[0033]图6B为本申请实施例提供的一种确定第一场景图像和第二场景图像的示意图;
[0034]图6C为本申请实施例提供的一种自监督预训练方法的实现架构示意图;
[0035]图7为本申请实施例提供的一种模型训练装置的组成结构示意图;
[0036]图8为本申请实施例提供的一种图像处理装置的组成结构示意图;
[0037]图9为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
[0038]为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;所述第一场景图像与所述第二场景图像之间具有重叠区域;利用待训练的第一模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对所述第一场景图像和所述第二场景图像分别进行特征提取,得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征;基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标损失值;基于所述目标损失值,对所述第一模型的模型参数进行至少一次更新,得到训练后的所述第一模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标损失值,包括:基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标场景损失值;基于所述目标场景损失值,确定目标损失值。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标场景损失值,包括:基于所述第一场景特征和所述第四场景特征之间的相似度,确定第一场景损失值;基于所述第二场景特征和所述第三场景特征之间的相似度,确定第二场景损失值;基于所述第一场景损失值和所述第二场景损失值,确定所述目标场景损失值。4.根据权利要求2或3所述的方法,其特征在于,所述重叠区域内包括至少一个候选实例;所述基于所述目标场景损失值,确定目标损失值,包括:基于所述目标场景损失值和目标实例损失值,确定目标损失值;其中,所述目标实例损失值包括以下至少之一:第一实例损失值和第二实例损失值;所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征,确定目标损失值,还包括:在所述目标实例损失值包括所述第一实例损失值的情况下,基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征,确定所述第一实例损失值;每一所述第一实例特征是利用所述第一模型提取的;在所述目标实例损失值包括所述第二实例损失值的情况下,基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征,确定所述第二实例损失值;每一所述第二实例特征是利用所述第二模型提取的。5.根据权利要求4所述的方法,其特征在于,所述第三场景特征和所述第四场景特征维度相同;所述基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征,确定所述第一实例损失值,包括:将每一所述第一实例特征进行连接,得到连接特征;将所述连接特征映射至所述第三场景特征的维度,得到映射特征;
基于所述第三场景特征、所述第四场景特征和所述映射特征,确定第一实例损失值。6.根据权利要求5所述的方法,其特征在于,所述基于所述第三场景特征、所述第四场景特征和所述映射特征,确定第一实例损失值,包括:基于所述第三场景特征和所述映射特征之间的相似度,确定第一子损失值;基于所述第四场景特征和所述映射特征之间的相似度,确定第二子损失值;基于所述第一子损失值和所述第二子损失值,确定第一实例损失值。7.根据权利要求4至6中任一项所述的方法,其特征在于,所述基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征,确定所述第二实例损失值,包括:对每一所述第一实例特征和每一所述第二实例特征进行匹配,得到至少一对具有目标匹配关系的第一实例特征和第二实例特征;基于每一对具有目标匹配关系的第一实例特征和第二实例特征,确定第二实例损失值。8.根据权利要求7所述的方法,其特征在于,所述对每一所述第一实例特征和每一所述第二实例特征进行匹配,得到至少一对具有目标匹配关系的第一实例特征和第二实例特征,包括:基于最优传输算法,对每一所述第一实例特征和每一所述第二实例特征进行匹配,得到至少一对具有目标匹配关系的第一实例特征和第二实例特征;所述基于每一对具有目标匹配关系的第一实例特征和第二实例特征,确定第二实例损失值,包括:基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本,确定第二实例损失值。9.根据权利要求4至8中任一项所述的方法,其特征在于,所述方法还包括:从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像;利用所述第一模型,对每一所述第一实例图像进行特征提取,得到每一所述第一实例特征。10.根据权利要求9所述的方法,其特征在于,所述从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像,包括:从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一候选区域图像;将每一所述第一候选区域图像的尺寸调整至目标尺寸,得到每一所述候选实例对应的第一实例图像。11.根据权利要求4至10中任一项所述的方法,其特征在于,在所述目标实例损失值包括所述第二实例损失值的情况下,所述方法还包括:从所述第二场景图像中获取所述重叠区域内每一候选实例对...

【专利技术属性】
技术研发人员:李朝闻朱优松杨帆李韡赵朝阳陈志扬吴立威赵瑞唐明王金桥
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1