一种数据分类方法技术

技术编号:30018073 阅读:19 留言:0更新日期:2021-09-11 06:30
本发明专利技术公开了一种数据分类方法,应用于包括源域和目标域的系统中,首先确定出所述源域中源域数据在公共子空间中对应的源域数据映射类原型矩阵,然后确定出所述目标域中目标域数据在所述公共子空间中对应的目标域已知类映射类原型矩阵,所述源域数据映射类原型矩阵包括源域已知类映射类原型矩阵和源域未知类映射类原型矩阵,然后基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵,最后根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签,实现了在具有大量源域已知类数据和源域未知类数据的情况下,对目标域未知类数据进行准确分类,且避免了域偏移问题。且避免了域偏移问题。且避免了域偏移问题。

【技术实现步骤摘要】
一种数据分类方法


[0001]本专利技术属于信息分类
,具体涉及一种数据分类方法。

技术介绍

[0002]随着计算机技术及信息技术的发展,在分类领域中,目标数据的数量和种类越来越多,通常将待分类的领域称为目标域,而具有大量标记样本的辅助领域称为源域,一般源域和目标域之间是存在差异的,这种差异称为域差异,目前对于目标域中的分类任务或其他任务是将在源域中学习到的知识等应用在目标域,以完成目标域中的分类任务或其他任务,在此过程中,由于域差异的存在,通常会遇到一系列的问题,即为域偏移问题。
[0003]现有技术中有基于域适应对目标域中未知类数据进行分类的方案,但在该方案中缺少目标域中未知类数据,不能直接用于解决域偏移问题。
[0004]现有技术中还有一种零样本对抗学习方案,用以对没有训练样本的未知类数据进行分类,其使用已知类数据的标签以及已知类与未知类之间的语义关系来训练零样本学习模型,以完成未知类数据的分类,但在该模型中已知类数据和未知类数据之间没有交集,该方案是基于已知类数据中的样本及其语义表示来训练生成器,然后给定未知类数据的类原型,生成伪造的未知类数据集,该方案不适用于在有大量的源域已知类数据和源域未知类数据的情况下对目标域未知类数据进行分类。
[0005]因此,如何在具有大量源域已知类数据和源域未知类数据的情况下,对目标域未知类数据进行分类,且避免域偏移问题,是本领域技术人员有待解决的技术问题。

技术实现思路

[0006]本专利技术的目的是为了解决现有技术无法在具有大量源域已知类数据和源域未知类数据的情况下,对目标域未知类数据进行分类,同时无法避免域偏移的技术问题,提出了一种数据分类方法。
[0007]本专利技术的技术方案为:一种数据分类方法,应用于包括源域和目标域的系统中,所述源域中的源域数据包括多个不同类别的源域已知类数据和多个不同类别的源域未知类数据,所述目标域中的目标域数据包括目标域未知类数据和多个不同类别的目标域已知类数据,所述方法包括以下步骤:
[0008]S1、确定出所述源域数据在公共子空间中对应的源域数据映射类原型矩阵,确定出所述目标域数据在所述公共子空间中对应的目标域已知类映射类原型矩阵,所述源域数据映射类原型矩阵包括源域已知类映射类原型矩阵和源域未知类映射类原型矩阵;
[0009]S2、基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵;
[0010]S3、根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签。
[0011]进一步地,所述源域已知类数据和所述目标域已知类数据的类别数量和类别相
同,所述源域未知类数据的类别为已知,单个所述源域已知类数据包含多个对应类别的样本,单个所述源域未知类数据包含多个对应类别的样本,单个所述目标域已知类数据包含多个对应类别的样本,所述目标域未知类数据包含多个未知类别的样本。
[0012]进一步地,所述S1具体包括以下分步骤:
[0013]S11、根据预设神经网络获取确定所述源域数据对应的源域样本特征矩阵,根据所述预设神经网络确定所述目标域对应的目标域样本特征矩阵,所述源域样本特征矩阵包括源域已知类样本特征矩阵和源域未知类样本特征矩阵,所述目标域样本特征矩阵包括目标域已知类样本特征矩阵和目标域未知类样本特征矩阵;
[0014]S12、将所述源域样本特征矩阵和所述目标域样本特征矩阵进行合并得到合并样本特征矩阵;
[0015]S13、确定出所述源域数据和所述目标域数据中任意两个样本之间的相似度,并将所有所述相似度组合为样本相似度矩阵;
[0016]S14、确定出所述源域数据对应的源域类原型矩阵和所述目标域已知类数据对应的目标域已知类类原型矩阵,所述源域类原型矩阵包括源域已知类类原型矩阵和源域未知类类原型矩阵;
[0017]S15、基于所述合并样本特征矩阵、所述样本相似度矩阵、所述源域类原型矩阵和所述目标域已知类类原型矩阵确定出对应的所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵。
[0018]进一步地,所述S15具体包括以下分步骤:
[0019]S151、基于所述源域类原型矩阵和所述目标域已知类类原型矩阵确定样本类原型矩阵;
[0020]S152、根据所述样本类原型矩阵、所述样本相似度矩阵和所述合并样本特征矩阵确定映射矩阵;
[0021]S153、基于所述源域类原型矩阵、所述目标域已知类类原型矩阵和所述映射矩阵确定出对应的源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵。
[0022]进一步地,所述S2包括以下分步骤:
[0023]S21、通过第一多层感知机网络确定所述源域和所述目标域之间的嵌入函数,并通过所述嵌入函数和所述源域未知类映射类原型矩阵确定出所述目标域未知类数据在所述公共子空间中对应的第一目标域未知类映射类原型矩阵;
[0024]S22、通过第二多层感知机网络确定所述源域已知类映射类原型矩阵和所述源域未知类映射类原型矩阵之间的关系函数,并通过所述关系函数和所述目标域已知类映射类原型矩阵确定出所述目标域未知类数据在所述公共子空间中对应的第二目标域未知类映射类原型矩阵;
[0025]S23、基于所述第一多层感知机网络、所述第二多层感知机网络、所述嵌入函数和所述关系函数确定出目标函数,并通过最小化所述目标函数对所述第一多层感知机网络和所述第二多层感知机网络进行训练得到训练后的所述嵌入函数;
[0026]S24、基于训练后的所述嵌入函数和所述源域未知类映射类原型矩阵确定出目标域未知类映射类原型矩阵。
[0027]进一步地,所述S3包括以下分步骤:
[0028]S31、确定所述目标域未知类数据中每一个样本与所述目标域未知类映射类原型矩阵中每一个目标域未知类映射类原型之间的距离向量;
[0029]S32、确定出值最小的所述距离向量对应的所述目标域未知类映射类原型的类别标签;
[0030]S33、基于所述类别标签将对应所述样本进行分类。
[0031]与现有技术相比,本专利技术的有益效果是:
[0032](1)本专利技术通过确定出公共子空间中源域已知类映射类原型矩阵、源域未知类映射类原型矩阵和目标域已知类映射类原型,基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵,根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签,实现了在具有大量源域已知类数据和源域未知类数据的情况下,对目标域未知类数据中的样本进行分类,且避免了域偏移问题。
[0033](2)本专利技术通过对两个多层感知机网络进行训练,以使两个多层感知机网络得到的目标域未知类映射类原型矩阵趋于一致,提高了获取目标域未知类映射类原型矩阵的可信度。
[0034](3)本专利技术在映射时通过合并样本特征矩阵将各个样本与其对应类别的类原型之间的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,应用于包括源域和目标域的系统中,其特征在于,所述源域中的源域数据包括多个不同类别的源域已知类数据和多个不同类别的源域未知类数据,所述目标域中的目标域数据包括目标域未知类数据和多个不同类别的目标域已知类数据,所述方法包括以下步骤:S1、确定出所述源域数据在公共子空间中对应的源域数据映射类原型矩阵,确定出所述目标域数据在所述公共子空间中对应的目标域已知类映射类原型矩阵,所述源域数据映射类原型矩阵包括源域已知类映射类原型矩阵和源域未知类映射类原型矩阵;S2、基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵;S3、根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签。2.如权利要求1所述的数据分类方法,其特征在于,所述源域已知类数据和所述目标域已知类数据的类别数量和类别相同,所述源域未知类数据的类别为已知,单个所述源域已知类数据包含多个对应类别的样本,单个所述源域未知类数据包含多个对应类别的样本,单个所述目标域已知类数据包含多个对应类别的样本,所述目标域未知类数据包含多个未知类别的样本。3.如权利要求2所述的数据分类方法,其特征在于,所述S1具体包括以下分步骤:S11、根据预设神经网络获取确定所述源域数据对应的源域样本特征矩阵,根据所述预设神经网络确定所述目标域对应的目标域样本特征矩阵,所述源域样本特征矩阵包括源域已知类样本特征矩阵和源域未知类样本特征矩阵,所述目标域样本特征矩阵包括目标域已知类样本特征矩阵和目标域未知类样本特征矩阵;S12、将所述源域样本特征矩阵和所述目标域样本特征矩阵进行合并得到合并样本特征矩阵;S13、确定出所述源域数据和所述目标域数据中任意两个样本之间的相似度,并将所有所述相似度组合为样本相似度矩阵;S14、确定出所述源域数据对应的源域类原型矩阵和所述目标域已知类数据对应的目标域已知类类原型矩阵,所述源域类原型矩阵包括源域已知类类原型矩阵和源域未知类类原型矩阵;S15...

【专利技术属性】
技术研发人员:李晓杜辉翟之博
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1