当前位置: 首页 > 专利查询>重庆大学专利>正文

一种无监督的双向重建领域自适应方法技术

技术编号:23050990 阅读:27 留言:0更新日期:2020-01-07 14:55
本发明专利技术公开了一种无监督的双向重建领域自适应方法,它包括步骤:1、构建域适应模型,模型包含三部分:1、特征对齐项:利用MMD构建域间的条件概率和边际概率以达到两个域在距离上的相近;2、互重构项:利用双向的重构来达到两个域数据结构上的混淆;3、正则化项:包含源域重构系数和目标域重构系数,对重构系数的正则化来保留源域的全局信息和目标域的局部信息;2、域适应模型的求解,求解模型得到学习特征的子空间/映射P;3、域适应模型的测试。本发明专利技术的技术效果是:能够充分混淆源域和目标域,又保留两个域之间的判别信息,获得新的子空间,由此训练分类器,提高了分类器的识别性能。

An unsupervised adaptive method for bi-directional reconstruction

【技术实现步骤摘要】
一种无监督的双向重建领域自适应方法
本专利技术属于基于计算机视觉的迁移学习(域适应)领域。
技术介绍
传统机器学习算法是在假设训练和测试数据位于具有独立同分布的相同特征空间(i.i.d.)的情况下建立的。但是,这种假设通常不适用于许多现实的场景。在计算机视觉领域,由于摄像机设备参数、照片亮度、拍摄角度以及背景等各种因素,视觉数据集会显示出严重的分布不匹配或域移位,使得传统的机器学习方法的识别性能急剧下降。实现精确识别的一般策略是在特定域中收集大量数据并训练广义分类器,经过前人数据的积累,我们已经拥有很多高质量的已标记数据集,例如,超过1400万图像的ImageNet数据集。然而,在特定领域中收集大量数据会消耗大量人力资源,并且随着在许多领域中无标签数据的爆炸式增长,这种收集资源的方式的效率低,甚至是不现实的。因此,如何通过利用另一个不同但语义相关的分布(如ImageNet)来实现新的领域的学习正成为一个越来越重要的课题。已经提出的迁移学习/域适应正是解决这种域间分布不匹配问题,其主要目的是在跨域迁移任务中将丰富的知识从源域(训练集)迁移到目标域(测试集)并能够提高识别性能。根据目标域数据是否有标记,域适应可以分为有监督和无监督。有监督域适应需要一部分有标记的目标域样本,而无监督域适应则使用无标记的目标域样本,这更具挑战性并且更接近现实。因此,本专利技术关注于无监督场景下的迁移学习/域适应问题。迁移学习/域适应通常要学习一个适应不同分布的分类器,或者学习域不变的表达。域不变的表达能够适应不同分类器,故得到了更多学者的关注。现有解决域适应问题的思路是充分混淆两个域(源域和目标域)以达到获取域不变特征的目的,同时希望保留判别信息来保证识别性能。然而如何更充分地混淆两个域,以最大程度较小分布差异并且保证识别性能,仍然是一个具有挑战性的问题。现有技术采用“联合分布适配”,简称JDA,根据文献“TransferFeatureLearningwithJointDistributionAdaptation”,LongM,WangJ,DingG,etal.Proceedingsofthe2013IEEEInternationalConferenceonComputerVision.IEEE,2013.(“迁移特征学习的联合分布适配”,LongM,WangJ,DingG,etal.2013届国际计算机视觉大会)的记载:构建两个域数据间的MMD(MaximumMeanDiscrepancy最大均值差异)距离,利用MMD衡量两个域之间的边际概率和条件概率,并引入了目标域伪标签来描述目标域的条件概率,JDA能够充分利用源域已有的判别信息。但是该技术的缺点是:它是基于距离的方法,忽略了数据的结构性,即数据之间的关系,所以不能充分混淆两个域,识别性能较差。
技术实现思路
针对现有技术存在的问题,本专利技术所要解决的技术问题就是提供一种无监督的双向重建领域自适应方法,它能在距离和数据结构上同时减小源域和目标域的分布差异,同时,通过减小两个域之间的条件概率和对重构系数进行稀疏和低秩约束来保留判别信息,以提高分类器的识别性能。本专利技术所要解决的技术问题是通过这样的技术方案实现的,它包括以下步骤:步骤1、构建域适应模型利用源域标签和数据以及目标域数据构建模型,模型包含三部分:1、特征对齐项:利用MMD构建域间的条件概率和边际概率以达到两个域在距离上的相近;2、互重构项:利用双向的重构来达到两个域数据结构上的混淆;3、正则化项:包含源域重构系数和目标域重构系数,对重构系数的正则化来保留源域的全局信息和目标域的局部信息;步骤2、域适应模型的求解求解模型得到学习特征的子空间/映射P;步骤3、域适应模型的测试在测试阶段,利用子空间/映射P将源域和目标域的数据同时映射到新的子空间,并利用新子空间中的源域特征建造分类器,用来预测新的目标域特征。特别地,步骤1中,构建域适应模型为:s.t.PTXHXTP=I式中,C表示类别数;tr(·)表示矩阵的迹;‖P‖F表示Frobenius范数,为要学习的子空间/映射,D为数据的维度,d为映射后的子空间维度;Xs、Xt分别代表源域和目标域的数据集合,即xsi为第i个维度为D的源域数据,xtj为第j个维度为D的目标域域数据,为所有数据的集合,n=ns+nt为源域数据总数与目标域数据总数之和;上标“T”表示矩阵的转置,是一个常数矩阵;Zt为源域重构矩阵,Zs为目标域重构矩阵,‖Zs‖1表示矩阵Zs的1范数,‖Zt‖*为矩阵Zt的核范数;为单位矩阵,为全1的矩阵;α,β,λ表示正则项参数。本专利技术的技术效果是:由于本专利技术引入了互重构项,该互重构项不仅采用了源域到目标域的重构,还采用了目标域到源域的重构,双向的重构方式能够充分地混淆两个域,另一方面,该互重构项引入两个重构系数,对源域重构系数采用低秩约束保留全局信息,对目标域重构系数采用稀疏约束保留局部信息。所以本方法专利技术能够充分混淆源域和目标域,又保留两个域之间的判别信息,获得新的子空间,由此训练分类器,提高了分类器的识别性能。具体实施方式下面结合实施例对本专利技术作进一步说明:子空间学习(subspacelearning)是一种具有特定性质的子空间/映射。本专利技术采用子空间学习的思路求得一个子空间/映射P,通过P将源域和目标域的特征映射到一个共同的子空间中,使子空间的数据具有域不变的特性以实现域适应。本专利技术应用于无监督的域适应问题,有以下定义:存在两个域分别为源域和目标域源域有其中源域数据的对应标签为ns为源域数据总数。目标域有nt为目标域数据总数。其问题是如何利用已标记的源域训练分类器f:来预测未标记的目标域(xt是目标域内的元素,yt是分类器f预测的对应的标签)。本专利技术采用子空间学习解决上述任务,本专利技术的构思是:1、准备数据,准备带标签的源域数据和不带标签的目标域数据,并且两个域间不同但语义相关。2、利用准备好的数据建立模型,模型能够求得一个子空间/映射P,通过P能够将两个域映射到共同的子空间。在共同子空间中要求两个域能够充分混淆以获得域不变特征,并且保持判别信息来保证识别性能。3、在测试过程中,利用映射后的域不变源域特征建立分类器,去预测映射后的目标域特征,最终得到分类精确度来表示学习效果。本专利技术使用了JDA的基础公式,由MMD构造边际分布和条件分布,即损失利用MMD衡量域之间的边际概率分布和条件概率分布。因为JDA基于距离的构造方式是在边际概率分布与条件概率分布之间对齐两个域,本专利技术申请称为“特征对齐项”:式(1)中,C表示类别数;tr(·)表示矩阵的迹;‖P‖F表示Frobenius范数,λ表示正则项参数;为要学习的子空间/映射,D为数据的维度,d为映射后的子空间维度;Xs、Xt分别代表源域和目标域的数据集合,即xsi为第i个维度为D的源域本文档来自技高网
...

【技术保护点】
1.一种无监督的双向重建领域自适应方法,其特征是,包括以下步骤:/n步骤1、构建域适应模型/n利用源域标签和数据以及目标域数据构建模型,模型包含三部分:1、特征对齐项:利用MMD构建域间的条件概率和边际概率以达到两个域在距离上的相近;2、互重构项:利用双向的重构来达到两个域数据结构上的混淆;3、正则化项:包含源域重构系数和目标域重构系数,对重构系数的正则化来保留源域的全局信息和目标域的局部信息;/n步骤2、域适应模型的求解/n求解模型得到学习特征的子空间/映射P;/n步骤3、域适应模型的测试/n在测试阶段,利用子空间/映射P将源域和目标域的数据同时映射到新的子空间,并利用新子空间中的源域特征建造分类器,用来预测新的目标域特征。/n

【技术特征摘要】
1.一种无监督的双向重建领域自适应方法,其特征是,包括以下步骤:
步骤1、构建域适应模型
利用源域标签和数据以及目标域数据构建模型,模型包含三部分:1、特征对齐项:利用MMD构建域间的条件概率和边际概率以达到两个域在距离上的相近;2、互重构项:利用双向的重构来达到两个域数据结构上的混淆;3、正则化项:包含源域重构系数和目标域重构系数,对重构系数的正则化来保留源域的全局信息和目标域的局部信息;
步骤2、域适应模型的求解
求解模型得到学习特征的子空间/映射P;
步骤3、域适应模型的测试
在测试阶段,利用子空间/映射P将源域和目标域的数据同时映射到新的子空间,并利用新子空间中的源域特征建造分类器,用来预测新的目标域特征。


2.根据权利要求1所述的无监督的双向重建领域自适应方法,其特征是:在步骤1中,构建域适应模型为:



s.t.PTXHXTP=I
式中,C表示类别数;tr(·)表示矩阵的迹;‖P‖F表示Frobenius范数,为要学习的子空间/映射,D为数据的维度,d为映射后的子空间维度;Xs、Xt分别代表源域和目标域的数据集合,即xsi为第i个维度为D的源域数据,xtj为第j个维度为D的目标域域数据,为所有数据的集合,n=ns+nt为源域数据总数与目标域数据总数之和;上标“T”表示矩阵的转置,是一个常数矩阵;
Zt为源域重构矩阵,Zs为目标域重构矩阵,‖Zs‖1表示矩阵Zs的1范数,‖Zt‖*为矩阵Zt的核范数;为单位矩阵,为全1的矩阵;α,β,λ表示正则项参数。


3.根据权利要求2所述的无监督的双向重建领域自适应方法,其特征是:在步骤2中,在构建的域适应模型中,引入两个辅助变量Ls和Lt,则:



s.t.PTXHXTP=I,Zs=Ls,Zt=Lt
求解某个变量时将其他变量看作常数,采用变量交替的方式分别求解...

【专利技术属性】
技术研发人员:张磊付静茹
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1