一种数据处理方法及装置制造方法及图纸

技术编号:20045866 阅读:32 留言:0更新日期:2019-01-09 04:28
本发明专利技术公开了一种数据处理方法,所述方法包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。本发明专利技术还同时公开了一种数据处理装置。

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及数据处理技术,具体涉及一种数据处理方法及装置。
技术介绍
现有技术中通常将训练数据来自的领域称之为源域,将测试数据来自的领域称之为目标域。在利用现有技术中的邻域保持和核子空间对齐(NPKSA)方法在提高图像识别效率时,是利用核映射函数将源域和目标域图像都映射到同一个高维空间中,使得在这个高维空间中源域和目标域图像线性可分。然后,对高维空间中的源域图像和目标域图像使用主成分分析法(PCA,PrincipalComponentAnalysis)降维,得到源域子空间和目标域子空间。接着,学习一个对齐矩阵将源域子空间和目标域子空间对齐,保证在原始空间中属于不同类别的源域样本在对齐后的空间中尽可能的分开。最后,利用学习得到的对齐矩阵对新的图像进行分类。然而,由于现有技术利用的是原始空间中不同类别的源域样本的信息,让原始空间中不同类别的样本在对齐后的空间中尽可能的分散,如此,可能导致原始空间中同类别的样本在对齐后的空间中也很分散(如图1所示),从而不利于分类器的训练,影响分类器在对图像进行分类识别时的准确性。图1为现有技术中基于邻域保持和核子空间对齐(NPKSA)方法的训练效果示意图;如图1所示,源域子空间101中属于同类别的源域样本,在使用NPKSA方法中的对齐矩阵进行空间对齐后,在对齐后的空间102中也很分散,从而导致在进行图像分类时的准确度较低。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例期望提供一种数据处理方法,能够提高图像识别的准确性。本专利技术实施例的技术方案是这样实现的:根据本专利技术实施例的一方面,提供一种数据处理方法,所述方法包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。上述方案中,所述方法还包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大,包括:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小,包括:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,包括:构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。上述方案中,所述第一散布矩阵Sw的表达式利用下列公式(1)构建;所述第二散布矩阵Sb的表达式利用下列公式(2)构建;令:其中,C表示源域样本S和目标域样本T在原始空间中所属的类别个数;ni表示第i类样本的个数;μi表示第i类样本的均值;μ表示所有样本的均值;Ps表示源域子空间;M表示源域子空间Ps和目标域子空间Pt的对齐矩阵;表示具体某个样本;上标T表示矩阵的转置。上述方案中,通过下述公式(5)构建所述最优对齐矩阵的表达式:其中,λ,β∈(0,+∞]表示正则化常数,表示源域样本的子空间和目标域样本的子空间的分布差异,Sw表示源域样本中属于相同类别的第一源域样本在对齐后的空间中的聚集程度;Sb表示源域样本中属于不同类别的第二源域样本在对齐后的空间中的分散程度;M表示最优对齐矩阵;λtr(Sw)为矩阵Sw的迹,βtr(Sb)为矩阵Sb的迹。上述方案中,在根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵之前,所述方法还包括:利用主成分分析法PCA分别对原始空间中的所述源域样本和所述目标域样本进行降维处理,得到所述源域样本的子空间和所述目标域样本的子空间。根据本专利技术实施例的另一方面,提供一种数据处理装置,所述装置包括:矩阵确定单元、空间对齐单元、训练单元和识别单元;其中,所述矩阵确定单元,用于根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;所述空间对齐单元,用于利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;所述训练单元,用于根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;所述识别单元,用于利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。根据本专利技术实施例的第三方面,提供一种数据处理装置,所述装置包括:存储器和处理器;其中,所述存储器,用于存储能够在所述处理器上运行的计算机程序;所述处理器,用于运行所述计算机程序时,执行上述数据处理方法中任一项所述方法的步骤。本专利技术实施例提供一种数据处理方法和装置,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。如此,不仅提高了分类器的鲁棒性,而且还提高了对图像的识别准确性。附图说明图1为现有技术中基于邻域保持和核子空间对齐(NPKSA)方法的训练效果示意图;图2为本专利技术实施例中数据处理方法的流程示意图;图3为基于本专利技术实施例提供的数据处理方法的训练效果示意图;图4为本专利技术实施例中数据处理装置的结构示意图一;图5为本专利技术实施例中数据处理装置的结构示意图二。具体实施方式下面结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。图2为本专利技术实施例中数据处理方法的流程示意图;所述方法具体可以是一种用于图像识别的基于邻域保持的子空间对齐方法(NPSA)。如图2所示,所述方法包括:步骤201,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;具体地,可以通过计算最优对齐矩阵,来使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小,如此,能够实现所述源域样本中属于相同类别的第一源域样本在对齐本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。2.根据权利要求1所述的方法,所述方法还包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。3.根据权利要求1所述的方法,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大,包括:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。4.根据权利要求2所述的方法,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小,包括:计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。5.根据权利要求1所述的方法,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,包括:构建所述源域样本中属于相同类别的第一源域样本在对齐后的空间中的第一散布矩阵,所述第一散布矩阵表征所述第一源域样本在对齐后的空间中的最大聚集程度;构建所述源域样本中属于不同类别的第二源域样本在对齐后的空间中的第二散布矩阵,所述第二散布矩阵表征所述第二源域样本在对齐后的空间中的最小聚集程度;根据所述第一散布矩阵和所述第二散布矩阵,确定所述最优对齐矩阵。6.根据权利要求5所述的方法,其特征在于,所述第一散布矩阵Sw的表达式利用下列公式(1)构建;所述第二散布矩...

【专利技术属性】
技术研发人员:许明微李琳吴耀华
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1