一种基于多源领域融合迁移学习的目标分类识别方法技术

技术编号:20364382 阅读:55 留言:0更新日期:2019-02-16 17:12
本发明专利技术公开了一种基于多源领域融合迁移学习的目标分类识别方法,确定至少两个源领域和目标领域,计算出每个源领域和目标领域之间的第一分布距离;将每个源领域和目标领域进行匹配,根据每个匹配结果对目标领域中的样本进行分类,得出该样本的第一分类结果;计算出第二分布距离;根据第一分布距离和第二分布距离计算出每个匹配结果的可靠度;根据每个第一分类结果结合对应的可靠度进行计算,得出该样本在对应源领域基础上的n个第二分类结果;融合多个第二分类结果,得出该样本的最终分类结果;本发明专利技术采用加权DS规则融合多个第二分类结果,解决了单源领域迁移学习正确率不够高的问题。

【技术实现步骤摘要】
一种基于多源领域融合迁移学习的目标分类识别方法
本专利技术属于目标识别
,尤其涉及一种基于多源领域融合迁移学习的目标分类识别方法。
技术介绍
在机器学习领域,传统的分类识别算法通常要求训练样本和测试样本服从独立同分布并且特征空间相同,在实际应用中这两个条件往往很难同时满足,迁移学习作为一种新的机器学习框架放宽了传统机器学习的条件限制。迁移学习是利用其它相关领域(源领域)中的训练样本来辅助目标领域中样本的分类识别,源领域中有充足的有标签的训练样本然而目标领域中有标签的样本很少甚至没有,并且这两个领域中的样本不服从独立同分布条件或者特征空间不相同或者分布和特征空间都不一样。在实际应用中经常会出现所关心的领域(目标领域)有标签的训练样本很少或者人为标注这些样本成本太高的情形,这时如果能利用源领域中有标签的训练样本来辅助目标领域中的分类识别将有效的节省人力财力。针对特征空间相同但样本分布不一致的情形,迁移学习通过匹配源领域和目标领域之间的分布,采用降维的手段将原始的样本变换到一个低维的特征空间中,在该特征空间中两个领域中的样本分布近似一致,在该特征空间里传统的机器学习方法就可以使用了。由于源领域和目标领域的分布存在着一定的差异,并且降维操作导致源领域损失了一些有用的信息,所以采用迁移学习方法得到的分类识别正确率受到类似这些因素的影响。
技术实现思路
本专利技术的目的是提供一种基于多源领域融合迁移学习的目标分类识别方法,采用加权DS规则融合多个源领域的分类结果,解决了单源领域迁移学习正确率不够高的问题。本专利技术采用以下技术方案:一种基于多源领域融合迁移学习的目标分类识别方法,具体包括以下步骤:步骤1、确定至少两个源领域和目标领域,计算出每个源领域和目标领域之间的第一分布距离;步骤2、将每个源领域分别和目标领域进行匹配,根据每个匹配结果对目标领域中的样本进行分类,得出该样本的n个第一分类结果m1,…,mn;步骤3、计算出每个源领域和目标领域匹配之后的第二分布距离;步骤4、根据第一分布距离和第二分布距离计算出每个第一分类结果的可靠度;步骤5、根据每个第一分类结果结合对应的可靠度进行计算,得出该样本在对应源领域基础上的n个第二分类结果;步骤6、采用加权DS融合规则,融合多个第二分类结果,得出该样本的最终分类结果。进一步地,步骤1中具体方法为:步骤1.1、确定n个源领域中的标签样本分别为其中,表示第i个源领域的数据集,Nn为第n个源领域中标签样本的个数,表示第i个源领域中第p个样本对应的属性,第i个源领域中第p个样本对应的真实标签;确定目标领域中无标签样本为其中,DT表示目标领域的数据集,NT表示目标领域中无标签样本的个数,表示目标领域中第q个样本对应的属性;步骤1.2、将n个源领域中的标签样本添加第一标记,得到为第一标记;将目标领域中的无标签样本添加第二标记,得到其中,表示第二标记;步骤1.3、将n个源领域中的添加第一标记后的标签样本分别和目标领域中添加第二标记后的样本混合为新的样本集,得出n个新的样本集表示为其中,xg表示对应的新的样本集中的第g个样本对应的属性,表示对应的新的样本集中的第g个样本对应的标记,Ni+NT表示对应的新的样本集中样本的个数;步骤1.4、利用新的样本集训练分类器,得出第i个新的样本集对应的分类损失C表示训练得到的分类器,C(xg)表示通过分类器C对样本分类后得到的样本标签,且有C(xg)∈{0,1};根据得到的分类损失,计算得出n个第一分布距离进一步地,步骤3的具体方法为:步骤3.1、通过映射矩阵Ai分别对每个源领域和目标领域中的样本进行降维,得出步骤3.2、采用步骤1.2-步骤1.4的方法对降维后的源领域和目标领域中的样本进行处理,得到n个第二分布距离其中为匹配之后的第i个源领域的样本集,为和第i个源领域匹配之后的目标领域的样本集。进一步地,步骤4的具体方法为:通过计算出第一分布距离和对应的第二分布距离的几何均值,通过计算得出第i个第一分类结果的可靠度,其中,进一步地,步骤5中具体通过计算得出n个第二分类结果进一步地,步骤6中具体通过计算得出目标领域中的样本的最终分类结果本专利技术的有益效果是:通过基于多源领域融合迁移学习的思想实现目标样本的分类识别,并解决单源领域迁移学习正确率不高的问题;在评估基于多个源领域的分类结果可靠度时利用源领域和目标领域分布差异,估计了由于多个源领域和目标领域分布差异程度不一致导致的分类结果可靠度不一样的问题;考虑源领域和目标领域匹配之前和匹配之后的分布距离,将这两个距离结合起来估计可靠度,比只采用匹配之前分布距离来评估可靠度更加合理;应用加权DS融合规则,实现基于多个源领域的目标领域中样本分类结果的融合,该方法充分地利用多个分类结果之间的互补信息并减小冲突程度来提高基于单源领域的分类精度。【附图说明】图1为基于多源领域融合迁移学习的目标分类识别方法流程图;图2为源领域和目标领域样本分布差异小的情形图;图3为源领域和目标领域样本分布差异大的情形图;图4为计算源领域和目标领域分布距离均值的算法流程图;图5为本专利技术实施例中四个领域中不同的笔记本图片示意图。【具体实施方式】下面结合附图和具体实施方式对本专利技术进行详细说明。针对领域分布不一致情形下的迁移学习,当可以获得多个源领域时,如果能将多个源领域中有用的信息融合起来,将有效的提升目标分类识别的正确率。我们在实际应用中经常会出现多个源领域,目标领域中的样本通过与不同的源领域进行匹配能获得多个分类结果,多个源领域提供的信息比单个源领域提供的多,所以我们提出了一种多源领域融合迁移学习的技术,即利用多个源领域提供的分类结果,采用证据推理中的加权DS融合规则将多个分类结果融合来辅助目标领域中样本的分类识别,通过度量源领域和目标领域之间的分布差异来估计权重。那么相比于单源领域的迁移学习,多源领域融合迁移学习的分类识别正确率有望得到有效提升。本专利技术就是基于这种思想来进行多源领域融合迁移学习的分类识别。为了有效的利用不同分类结果提供的互补信息并减小冲突的影响,利用领域间的分布距离估计分类结果的可靠度,对基于多个源领域的分类结果进行加权融合,获得最终的分类识别结果,提出了一种基于多源领域融合迁移学习的目标分类识别方法,具体流程如图1所示,包括以下步骤:步骤1、确定至少两个源领域和目标领域,计算出每个源领域和目标领域之间的第一分布距离。由于不同的源领域和目标领域之间相似程度不一样,即样本分布差异程度是不一样的,差异程度越小表明源领域和目标领域之间越相似,越相似则表明该源领域为在目标领域的样本提供的有用信息就越多,相应的得到的分类结果可靠性就越高。目前有很多度量分布差异的准则,本专利技术采用一种叫做A-distance的度量方法来估计源领域和目标领域分布间的距离,A-distance的思想就是采用二分类的处理办法来判别样本是来自源领域还是目标领域,如果两个领域之间的分布差异很大则很容易区分,相反的差异很小就很难区分,这种现象如图3和图4所示。具体方法为:步骤1.1、确定n个源领域中的标签样本分别为其中,表示第i个源领域的数据集,Nn为第n个源领域中标签样本的个数,表示第i个源领域中第p个样本的对应属性,第i个源领域中第p个样本本文档来自技高网...

【技术保护点】
1.一种基于多源领域融合迁移学习的目标分类识别方法,其特征在于,具体包括以下步骤:步骤1、确定至少两个源领域和目标领域,计算出每个源领域和目标领域之间的第一分布距离;步骤2、将每个源领域分别和目标领域进行匹配,根据每个匹配结果对目标领域中的样本进行分类,得出该样本的n个第一分类结果m1,…,mn;步骤3、计算出每个源领域和目标领域匹配之后的第二分布距离;步骤4、根据第一分布距离和第二分布距离计算出每个第一分类结果的可靠度;步骤5、根据每个第一分类结果结合对应的可靠度进行计算,得出该样本在对应源领域基础上的n个第二分类结果;步骤6、采用加权DS融合规则,融合多个第二分类结果,得出该样本的最终分类结果。

【技术特征摘要】
1.一种基于多源领域融合迁移学习的目标分类识别方法,其特征在于,具体包括以下步骤:步骤1、确定至少两个源领域和目标领域,计算出每个源领域和目标领域之间的第一分布距离;步骤2、将每个源领域分别和目标领域进行匹配,根据每个匹配结果对目标领域中的样本进行分类,得出该样本的n个第一分类结果m1,…,mn;步骤3、计算出每个源领域和目标领域匹配之后的第二分布距离;步骤4、根据第一分布距离和第二分布距离计算出每个第一分类结果的可靠度;步骤5、根据每个第一分类结果结合对应的可靠度进行计算,得出该样本在对应源领域基础上的n个第二分类结果;步骤6、采用加权DS融合规则,融合多个第二分类结果,得出该样本的最终分类结果。2.如权利要求1所述的一种基于多源领域融合迁移学习的目标分类识别方法,其特征在于,步骤1中具体方法为:步骤1.1、确定n个源领域中的标签样本分别为其中,表示第i个源领域的数据集,Nn为第n个源领域中标签样本的个数,表示第i个源领域中第p个样本对应的属性,第i个源领域中第p个样本对应的真实标签;确定目标领域中无标签样本为其中,DT表示目标领域的数据集,NT表示目标领域中无标签样本的个数,表示目标领域中第q个样本对应的属性;步骤1.2、将n个源领域中的标签样本添加第一标记,得到为第一标记;将目标领域中的无标签样本添加第二标记,得到其中,表示第二标记;步骤1.3、将n个源领域中的添加第一标记后的标签样本分别和目标领域中添加第二标记后的...

【专利技术属性】
技术研发人员:刘准钆黄林庆潘泉何友
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1