一种数据处理方法和相关装置制造方法及图纸

技术编号:37173361 阅读:9 留言:0更新日期:2023-04-20 22:43
本申请公开了一种数据处理方法和相关装置,获取由源域的标注图像样本和目标域的无标注图像样本构成的训练样本矩阵,标注图像样本的样本标签用于标识标注图像样本的类别信息,根据训练样本矩阵对初始领域对齐矩阵、初始全局相似矩阵和初始预测标签矩阵进行更新,得到目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵,根据训练样本矩阵、目标对齐矩阵、目标全局相似矩阵、目标预测标签矩阵与源域样本标签矩阵构建检查参数,若检查参数不满足第一收敛条件,进行迭代更新直至满足第一收敛条件,认为完成训练得到目标域的图像识别模型。利用标签传播能够使得源域的标注图像样本能够用于目标域的图像识别中,提高目标域的图像识别模型的训练效率。模型的训练效率。模型的训练效率。

【技术实现步骤摘要】
一种数据处理方法和相关装置


[0001]本申请涉及数据处理
,特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]随着人工智能的快速发展,机器学习被广泛应用于各个领域中。具体可以是基于机器学习的方式进行模型训练得到能够适用于目标域的目标模型,后续可以使用目标模型处理目标域中的相关业务。比如,训练得到的目标模型为图像识别模型,后续可以用于对目标域中的图像进行识别处理等。
[0003]针对一个领域下的图像识别需求,需要训练得到针对该领域的图像识别模型,而模型训练需要依赖大量的标注样本。一般,通过人工对全新领域中的样本数据进行标记,得到对应的标签,从而构建出能够用于模型训练的标注样本。
[0004]然而,这种依赖人工标记的方式,会耗费大量时间和成本,尤其是针对一个全新领域时,降低了全新领域中图像识别模型的训练效率。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,能够提高目标域的图像识别模型的训练效率。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
[0008]获取训练样本矩阵、初始领域对齐矩阵、初始全局相似矩阵和初始预测标签矩阵;所述训练样本矩阵包括源域的标注图像样本和目标域的无标注图像样本,所述标注图像样本的样本标签用于标识所述标注图像样本的类别信息;
[0009]根据所述训练样本矩阵,分别对所述初始领域对齐矩阵、所述初始全局相似矩阵和所述初始预测标签矩阵进行更新,得到目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵;所述目标对齐矩阵用于标识所述源域与所述目标域之间的领域对齐结果,所述目标全局相似矩阵用于标识所述训练样本之间的全局结构相似度,所述目标预测标签矩阵用于标识所述训练样本矩阵中的图像样本的预测类别信息;
[0010]根据所述训练样本矩阵、所述目标对齐矩阵、所述目标全局相似矩阵、所述目标预测标签矩阵与源域样本标签矩阵构建检查参数;所述源域样本标签矩阵是根据所述源域的标注图像样本的样本标签构建的;
[0011]若所述检查参数不满足第一收敛条件,分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述目标预测标签矩阵进行迭代更新,直至所述检查参数满足所述第一收敛条件。
[0012]另一方面,本申请实施例提供了一种数据处理装置,所述装置包括获取单元、更新单元、构建单元和迭代单元:
[0013]所述获取单元,用于获取训练样本矩阵、初始领域对齐矩阵、初始全局相似矩阵和
初始预测标签矩阵;所述训练样本矩阵包括源域的标注图像样本和目标域的无标注图像样本,所述标注图像样本的样本标签用于标识所述标注图像样本的类别信息;
[0014]所述更新单元,用于根据所述训练样本矩阵,分别对所述初始领域对齐矩阵、所述初始全局相似矩阵和所述初始预测标签矩阵进行更新,得到目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵;所述目标对齐矩阵用于标识所述源域与所述目标域之间的领域对齐结果,所述目标全局相似矩阵用于标识所述训练样本之间的全局结构相似度,所述目标预测标签矩阵用于标识所述训练样本矩阵中的图像样本的预测类别信息;
[0015]所述构建单元,用于根据所述训练样本矩阵、所述目标对齐矩阵、所述目标全局相似矩阵、所述目标预测标签矩阵与源域样本标签矩阵构建检查参数;所述源域样本标签矩阵是根据所述源域的标注图像样本的样本标签构建的;
[0016]所述迭代单元,用于若所述检查参数不满足第一收敛条件,分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述目标预测标签矩阵进行迭代更新,直至所述检查参数满足所述第一收敛条件。
[0017]又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
[0018]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0019]所述处理器用于根据所述程序代码中的指令执行以上方面所述的数据处理方法。
[0020]又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的数据处理方法。
[0021]又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行以上方面所述的数据处理方法。
[0022]由上述技术方案可以看出,获取由源域的标注图像样本和目标域的无标注图像样本构成的训练样本矩阵,且标注图像样本的样本标签用于标识标注图像样本的类别信息,进而根据训练样本矩阵对初始领域对齐矩阵、初始全局相似矩阵和初始预测标签矩阵进行更新,得到目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵,其中,目标对齐矩阵用于标识源域与目标域之间的领域对齐结果,目标全局相似矩阵用于标识训练样本之间的全局结构相似度,目标预测标签矩阵用于标识训练样本矩阵中的图像样本的预测类别信息,最后,根据训练样本矩阵、目标对齐矩阵、目标全局相似矩阵、目标预测标签矩阵与源域样本标签矩阵构建检查参数,当检查参数不满足第一收敛条件时,分别对目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵进行迭代更新,直至检查参数满足第一收敛条件,可以认为完成训练,得到目标域的图像识别模型。基于此,通过对源域与目标域进行领域对齐以及确定训练样本之间的全局结构相似度,减少目标域与源域之间的差异,确定目标预测标签矩阵时采用了标签传播的方式,利用标签传播能够使得源域的标注图像样本能够用于目标域的图像识别中,基于此,无需人工标注,大大提高了目标域的图像识别模型的训练效率。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本申请实施例提供的一种数据处理方法的流程图;
[0025]图2为本申请实施例提供的一种数据处理装置的结构图。
具体实施方式
[0026]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]本申请实施例所提供的数据处理方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取训练样本矩阵、初始领域对齐矩阵、初始全局相似矩阵和初始预测标签矩阵;所述训练样本矩阵包括源域的标注图像样本和目标域的无标注图像样本,所述标注图像样本的样本标签用于标识所述标注图像样本的类别信息;根据所述训练样本矩阵,分别对所述初始领域对齐矩阵、所述初始全局相似矩阵和所述初始预测标签矩阵进行更新,得到目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵;所述目标对齐矩阵用于标识所述源域与所述目标域之间的领域对齐结果,所述目标全局相似矩阵用于标识所述训练样本之间的全局结构相似度,所述目标预测标签矩阵用于标识所述训练样本矩阵中的图像样本的预测类别信息;根据所述训练样本矩阵、所述目标对齐矩阵、所述目标全局相似矩阵、所述目标预测标签矩阵与源域样本标签矩阵构建检查参数;所述源域样本标签矩阵是根据所述源域的标注图像样本的样本标签构建的;若所述检查参数不满足第一收敛条件,分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述目标预测标签矩阵进行迭代更新,直至所述检查参数满足所述第一收敛条件。2.根据权利要求1所述的方法,其特征在于,所述分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述目标预测标签矩阵进行迭代更新,包括:获取所述目标预测标签矩阵中预测概率大于预设概率的预测标签作为保留标签,获取修正参数;根据所述保留标签和所述修正参数对所述目标预测标签矩阵进行修正,得到修正后的目标预测标签矩阵;分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述修正后的目标预测标签矩阵进行迭代更新。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述训练样本矩阵包括的训练样本的数量,获取所述保留标签的数量;计算所述保留标签的数量与所述训练样本的数量的比值;若所述比值不满足第二收敛条件,分别对所述目标对齐矩阵、所述目标全局相似矩阵和所述修正后的目标预测标签矩阵进行迭代更新,直至所述比值满足所述第二收敛条件。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述检查参数满足所述第一收敛条件且所述比值满足所述第二收敛条件,结束迭代;输出最后一次迭代更新得到的目标对齐矩阵、目标全局相似矩阵和目标预测标签矩阵。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:当结束迭代时,根据最后一次迭代对应的模型参数确定目标域图像识别模型;获取所述目标域的待识别图像样本;通过所述目标域...

【专利技术属性】
技术研发人员:周翊航
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1