一种数据分类方法技术

技术编号：30018073 阅读：19 留言：0更新日期：2021-09-11 06:30

本发明专利技术公开了一种数据分类方法，应用于包括源域和目标域的系统中，首先确定出所述源域中源域数据在公共子空间中对应的源域数据映射类原型矩阵，然后确定出所述目标域中目标域数据在所述公共子空间中对应的目标域已知类映射类原型矩阵，所述源域数据映射类原型矩阵包括源域已知类映射类原型矩阵和源域未知类映射类原型矩阵，然后基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵，最后根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签，实现了在具有大量源域已知类数据和源域未知类数据的情况下，对目标域未知类数据进行准确分类，且避免了域偏移问题。且避免了域偏移问题。且避免了域偏移问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据分类方法

[0001]本专利技术属于信息分类
，具体涉及一种数据分类方法。

技术介绍

[0002]随着计算机技术及信息技术的发展，在分类领域中，目标数据的数量和种类越来越多，通常将待分类的领域称为目标域，而具有大量标记样本的辅助领域称为源域，一般源域和目标域之间是存在差异的，这种差异称为域差异，目前对于目标域中的分类任务或其他任务是将在源域中学习到的知识等应用在目标域，以完成目标域中的分类任务或其他任务，在此过程中，由于域差异的存在，通常会遇到一系列的问题，即为域偏移问题。
[0003]现有技术中有基于域适应对目标域中未知类数据进行分类的方案，但在该方案中缺少目标域中未知类数据，不能直接用于解决域偏移问题。
[0004]现有技术中还有一种零样本对抗学习方案，用以对没有训练样本的未知类数据进行分类，其使用已知类数据的标签以及已知类与未知类之间的语义关系来训练零样本学习模型，以完成未知类数据的分类，但在该模型中已知类数据和未知类数据之间没有交集，该方案是基于已知类数据中的样本及其语义表示来训练生成器，然后给定未知类数据的类原型，生成伪造的未知类数据集，该方案不适用于在有大量的源域已知类数据和源域未知类数据的情况下对目标域未知类数据进行分类。
[0005]因此，如何在具有大量源域已知类数据和源域未知类数据的情况下，对目标域未知类数据进行分类，且避免域偏移问题，是本领域技术人员有待解决的技术问题。

技术实现思路

[0006]本专利技术的目的是为了解决现有技术无法在具有大量...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法，应用于包括源域和目标域的系统中，其特征在于，所述源域中的源域数据包括多个不同类别的源域已知类数据和多个不同类别的源域未知类数据，所述目标域中的目标域数据包括目标域未知类数据和多个不同类别的目标域已知类数据，所述方法包括以下步骤：S1、确定出所述源域数据在公共子空间中对应的源域数据映射类原型矩阵，确定出所述目标域数据在所述公共子空间中对应的目标域已知类映射类原型矩阵，所述源域数据映射类原型矩阵包括源域已知类映射类原型矩阵和源域未知类映射类原型矩阵；S2、基于所述源域数据映射类原型矩阵和所述目标域已知类映射类原型矩阵确定所述目标域未知类映射类原型矩阵；S3、根据所述目标域未知类映射类原型矩阵确定所述目标域未知类数据中每一个样本的类别标签。2.如权利要求1所述的数据分类方法，其特征在于，所述源域已知类数据和所述目标域已知类数据的类别数量和类别相同，所述源域未知类数据的类别为已知，单个所述源域已知类数据包含多个对应类别的样本，单个所述源域未知类数据包含多个对应类别的样本，单个所述目标域已知类数据包含多个对应类别的样本，所述目标域未知类数据包含多个未知类别的样本。3.如权利要求2所述的数据分类方法，其特征在于，所述S1具体包括以下分步骤：S11、根据预设神经网络获取确定所述源域数据对应的源域样本特征矩阵，根据所述预设神经网络确定所述目标域对应的目标域样本特征矩阵，所述源域样本特征矩阵包括源域已知类样本特征矩阵和源域未知类样本特征矩阵，所述目标域样本特征矩阵包括目标域已知类样本特征矩阵和目标域未知类样本特征矩阵；S12、将所述源域样本特征矩阵和所述目标域样本特征矩阵进行合并得到合并样本特征矩阵；S13、确定出所述源域数据和所述目标域数据中任意两个样本之间的相似度，并将所有所述相似度组合为样本相似度矩阵；S14、确定出所述源域数据对应的源域类原型矩阵和所述目标域已知类数据对应的目标域已知类类原型矩阵，所述源域类原型矩阵包括源域已知类类原型矩阵和源域未知类类原型矩阵；S15...

【专利技术属性】
技术研发人员：李晓，杜辉，翟之博，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人