一种基于流形迁移学习的数据标定方法及系统技术方案

技术编号:19693851 阅读:54 留言:0更新日期:2018-12-08 11:41
本发明专利技术涉及一种基于流形迁移学习的数据标定方法和系统,包括:获取已标定标签的特征数据作为源域,获取待标定标签的特征数据作为目标域,对源域和目标域分别进行主成分分析,得到源特征向量和目标特征向量;将源特征向量和目标特征向量分别映射至流形空间,以得到源域在流形空间中的源流形特征和目标域在流形空间中的目标流形特征;统计源域具有的标签种类,并根据标签种类下的特征数据个数,得到每一类标签下源流形特征的平均值,并根据平均值和目标流形特征间的距离,为目标域中的特征数据标定标签。本发明专利技术简化了大规模数据的标定,提高了方法的泛化能力,提高了迁移标定的运行效率。

【技术实现步骤摘要】
一种基于流形迁移学习的数据标定方法及系统
本专利技术涉及机器学习、迁移学习及数据标定领域,具体涉及一种基于流形迁移学习的数据标定方法及系统。
技术介绍
大数据时代产生了大量的人群行为、交通模式、生活数据、健康、办公、医疗等各个方面的用户数据。基于这些大规模的图像、文本、音视频数据,研究人员可以进行更加广泛而深入的分析与应用。同时,工业界也可以基于这些数据,为用户定制更具个性化的服务。然而,尽管这些数据可以很容易地被获取到,但是它们往往都以无标定的形态出现。没有足够的标记,很难对这些数据进行最大程度的利用。并且,通常只能获取这些数据某些侧面的信息(如,不同的图像在不同的光照条件、不同背景、不同视角下往往呈现不同的特征分布),而无法收集所有方面的数据信息;可获取的数据通常也具有不同的性质:或者具有不同的数据特征维度,或者具有不同的特征分布,又或者具有不同的数据类别。为了解决这个标定数据的难题,传统的机器学习方法假设训练数据和测试数据均属于同一种数据分布,以此来训练相关的模型,实现数据标定。然而,由于这些数据分布的高动态性和高差异性,传统的机器学习方法对此类问题无法产生具有强泛化能力的求解方案。随着机器学习方法的发展,陆续出现了多视图学习、多任务学习、自学习、流形学习等方法,均可以用于进行不同数据分布下的机器学习。多视图学习从不同角度看待数据的学习目标,用不同的思路对数据进行建模,继而从不同的模型层面,对数据进行表征;多任务学习用不同的模型对数据各自建模,然后通过多个模型的协同更新来描述数据的分布;自学习方法则是通过无监督或半监督的模式自发从数据中学习相关的知识,完成知识的表征;流形学习方法的主要思想是将高维数据映射到低维数据,使低维数据能够反映原高维数据的某些本质结构特征。流形学习的前提是某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。假定数据处于一个高维流形中的低维嵌入,通过数据运算,根据流形特征进行不同数据的相似性匹配。迁移学习作为机器学习的一大分支,其区别于传统机器学习方法之处在于,通过找寻待标定数据和已知标签数据之间的联系,从已知标签的数据中学习知识,迁移到待标定数据中,完成迁移标定。迁移学习在解决数据分布动态变化、数据维度不一致,以及数据类别不同的问题具有明显的优势。但是,现有的迁移学习方法往往只侧重于解决两方面的问题:或者进行子空间学习,把数据映射到不同的子空间进行不同数据的适配;或者进行概率分布适配,在一个高维空间中最小化已有的标定数据和待求解的目标数据之间的距离。子空间学习方法在学习子空间后,数据特征仍然存在漂移,导致结果不够精确;概率分布适配方法只是在原始特征空间中进行,而原始空间中的特征往往存在扭曲状态,也会导致结果不够精确。综合上述分析,现存的机器学习和迁移学习方法存在以下不足:1)传统机器学习:由于在大数据环境中,数据分布往往具有高动态性和高差异性,因此,传统的机器学习方法对于不同数据分布下大规模数据标定的问题不再适用;2)多视图学习、多任务学习和自学习方法从不同角度来学习待预测的目标,极大地受限于先验知识,即如果没有相关的领域知识,很难对问题进行快速地建模求解。3)现存迁移学习:子空间迁移学习方法在学习子空间后,数据特征仍然存在漂移,即特征不再服从相同的数据分布,导致结果不够精确;概率分布适配方法只是在原始特征空间中进行,而原始空间中的特征往往存在扭曲状态,即用通常的特征提取方式所提取的特征不能够完整地表示原始数据的特性,也会导致结果不够精确。因此,急需设计一种能够进行非扭曲特征映射、且可以快速高效进行求解的迁移学习方法。
技术实现思路
针对上述问题,本专利技术提出了一种基于流形迁移学习的数据标定方法,其中包括:步骤1、获取已标定标签的特征数据作为源域,获取待标定标签的特征数据作为目标域,对该源域和该目标域分别进行主成分分析,得到源特征向量和目标特征向量;步骤2、将该源特征向量和该目标特征向量分别映射至流形空间,以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征;步骤3、统计该源域具有的标签种类,并根据该标签种类下的特征数据个数,得到每一类标签下该源流形特征的平均值,并根据该平均值和该目标流形特征间的距离,为该目标域中的特征数据标定标签。该基于流形迁移学习的数据标定方法,其中步骤2中该流形空间为格拉斯曼流形空间。该基于流形迁移学习的数据标定方法,其中通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间,其中z为该源流形特征或该目标流形特征,x为该源特征向量或该目标特征向量,G的确定方法包括:Ps为该源特征向量,Rs是和Ps正交的矩阵,T代表矩阵的转置,Λ1,Λ2,Λ3均为对角矩阵,U1、U2分别为Ps和Rs的矩阵奇异值分解结果。该基于流形迁移学习的数据标定方法,其中该步骤3包括:用二值化变量Tct来标识该目标域中特征数据t是否属于第c类标签,Tct通过最小化下式得到:式中dct表示该特征数据t到源域数据第c类标签的距离。该基于流形迁移学习的数据标定方法,其中该特征数据t到源域数据第c类标签的距离dct的计算方法包括:式中zt为该特征数据t在流形空间中的特征,Sc为该平均值。本专利技术还提出了一种基于流形迁移学习的数据标定系统,其中包括:主成分分析模块,用于获取已标定标签的特征数据作为源域,获取待标定标签的特征数据作为目标域,对该源域和该目标域分别进行主成分分析,得到源特征向量和目标特征向量;流形空间映射模块,用于将该源特征向量和该目标特征向量分别映射至流形空间,以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征;标签标定模块,用于统计该源域具有的标签种类,并根据该标签种类下的特征数据个数,得到每一类标签下该源流形特征的平均值,并根据该平均值和该目标流形特征间的距离,为该目标域中的特征数据标定标签。该基于流形迁移学习的数据标定系统,其中流形空间映射模块中该流形空间为格拉斯曼流形空间。该基于流形迁移学习的数据标定系统,其中通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间,其中z为该源流形特征或该目标流形特征,x为该源特征向量或该目标特征向量,G的确定方法包括:Ps为该源特征向量,Rs是和Ps正交的矩阵,T代表矩阵的转置,Λ1,Λ2,Λ3均为对角矩阵,U1、U2分别为Ps和Rs的矩阵奇异值分解结果。该基于流形迁移学习的数据标定系统,其中该标签标定模块包括:用二值化变量Tct来标识该目标域中特征数据t是否属于第c类标签,Tct通过最小化下式得到:式中dct表示该特征数据t到源域数据第c类标签的距离。该基于流形迁移学习的数据标定系统,其中该特征数据t到源域数据第c类标签的距离dct的计算方法包括:式中zt为该特征数据t在流形空间中的特征,Sc为该平均值。相比于现有技术,本专利技术通过以下3点技术特征,简化了大规模数据的标定,提高了方法的泛化能力,提高了迁移标定的运行效率:1、本专利技术运用迁移学习的方法解决不同数据分布下大规模数据的标定问题,不同于传统的机器学习方法先对源域建立模型再直接对同一领域的目标域进行预测,而是利用迁移学习的思想,将从源域中学习到的知识迁移到其本文档来自技高网
...

【技术保护点】
1.一种基于流形迁移学习的数据标定方法,其特征在于,包括:步骤1、获取已标定标签的特征数据作为源域,获取待标定标签的特征数据作为目标域,对该源域和该目标域分别进行主成分分析,得到源特征向量和目标特征向量;步骤2、将该源特征向量和该目标特征向量分别映射至流形空间,以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征;步骤3、统计该源域具有的标签种类,并根据该标签种类下的特征数据个数,得到每一类标签下该源流形特征的平均值,并根据该平均值和该目标流形特征间的距离,为该目标域中的特征数据标定标签。

【技术特征摘要】
1.一种基于流形迁移学习的数据标定方法,其特征在于,包括:步骤1、获取已标定标签的特征数据作为源域,获取待标定标签的特征数据作为目标域,对该源域和该目标域分别进行主成分分析,得到源特征向量和目标特征向量;步骤2、将该源特征向量和该目标特征向量分别映射至流形空间,以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征;步骤3、统计该源域具有的标签种类,并根据该标签种类下的特征数据个数,得到每一类标签下该源流形特征的平均值,并根据该平均值和该目标流形特征间的距离,为该目标域中的特征数据标定标签。2.如权利要求1所述的基于流形迁移学习的数据标定方法,其特征在于,步骤2中该流形空间为格拉斯曼流形空间。3.如权利要求2所述的基于流形迁移学习的数据标定方法,其特征在于,通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间,其中z为该源流形特征或该目标流形特征,x为该源特征向量或该目标特征向量,G的确定方法包括:Ps为该源特征向量,Rs是和Ps正交的矩阵,T代表矩阵的转置,Λ1,Λ2,Λ3均为对角矩阵,U1、U2分别为Ps和Rs的矩阵奇异值分解结果。4.如权利要求1所述的基于流形迁移学习的数据标定方法,其特征在于,该步骤3包括:用二值化变量Tct来标识该目标域中特征数据t是否属于第c类标签,Tct通过最小化下式得到:式中dct表示该特征数据t到源域数据第c类标签的距离。5.如权利要求4所述的基于流形迁移学习的数据标定方法,其特征在于,该特征数据t到源域数据第c类标签的距离dct的计算方法包括:式中zt为该特征数据t在流形空间中的特征,Sc为该平均值。6.一种基于流形迁移学习的...

【专利技术属性】
技术研发人员:陈益强王晋东冯文杰忽丽莎
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1