一种数据处理方法及装置制造方法及图纸

技术编号：20045866 阅读：32 留言：0更新日期：2019-01-09 04:28

本发明专利技术公开了一种数据处理方法，所述方法包括：根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于相同类别的第一源域样本，在对齐后的空间中的聚集程度最大；利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐，得到源域数据集和目标域数据集；根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练，得到训练后的分类器；利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。本发明专利技术还同时公开了一种数据处理装置。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及数据处理技术，具体涉及一种数据处理方法及装置。
技术介绍
现有技术中通常将训练数据来自的领域称之为源域，将测试数据来自的领域称之为目标域。在利用现有技术中的邻域保持和核子空间对齐(NPKSA)方法在提高图像识别效率时，是利用核映射函数将源域和目标域图像都映射到同一个高维空间中，使得在这个高维空间中源域和目标域图像线性可分。然后，对高维空间中的源域图像和目标域图像使用主成分分析法(PCA，PrincipalComponentAnalysis)降维，得到源域子空间和目标域子空间。接着，学习一个对齐矩阵将源域子空间和目标域子空间对齐，保证在原始空间中属于不同类别的源域样本在对齐后的空间中尽可能的分开。最后，利用学习得到的对齐矩阵对新的图像进行分类。然而，由于现有技术利用的是原始空间中不同类别的源域样本的信息，让原始空间中不同类别的样本在对齐后的空间中尽可能的分散，如此，可能导致原始空间中同类别的样本在对齐后的空间中也很分散(如图1所示)，从而不利于分类器的训练，影响分类器在对图像进行分类识别时的准确性。图1为现有技术中基于邻域保持和核子空间对齐(NPKSA)方法的训练效果示意图；如图1所示，源域子空间101中属于同类别的源域样本，在使用NPKSA方法中的对齐矩阵进行空间对齐后，在对齐后的空间102中也很分散，从而导致在进行图像分类时的准确度较低。
技术实现思路
为解决现有存在的技术问题，本专利技术实施例期望提供一种数据处理方法，能够提高图像识别的准确性。本专利技术实施例的技术方案是这样实现的：根据本专利技术实施例的一方面，提供一...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于相同类别的第一源域样本，在对齐后的空间中的聚集程度最大；利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐，得到源域数据集和目标域数据集；根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练，得到训练后的分类器；利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于相同类别的第一源域样本，在对齐后的空间中的聚集程度最大；利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐，得到源域数据集和目标域数据集；根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练，得到训练后的分类器；利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。2.根据权利要求1所述的方法，所述方法还包括：根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于不同类别的第二源域样本，在对齐后的空间中的聚集程度最小。3.根据权利要求1所述的方法，根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于相同类别的第一源域样本，在对齐后的空间中的聚集程度最大，包括：计算最优对齐矩阵，使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。4.根据权利要求2所述的方法，根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，使得所述源域样本中属于不同类别的第二源域样本，在对齐后的空间中的聚集程度最小，包括：计算最优对齐矩阵，使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。5.根据权利要求1所述的方法，根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵，包括：构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵，所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度；构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵，所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度；根据所述第一散布矩阵和所述第二散布矩阵，确定所述最优对齐矩阵。6.根据权利要求5所述的方法，其特征在于，所述第一散布矩阵Sw的表达式利用下列公式(1)构建；所述第二散布矩...

【专利技术属性】
技术研发人员：许明微，李琳，吴耀华，
申请(专利权)人：咪咕文化科技有限公司，中国移动通信集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人