一种基于散度计算的异构域适应方法技术

技术编号:21606870 阅读:58 留言:0更新日期:2019-07-13 18:41
本发明专利技术公开了一种基于散度计算的异构域适应方法,包括如下步骤:数据预处理;分别学习映射,将源域和目标域映射至同一共享子空间,同时利用最大均值差异(MMD)距离进行分布匹配,减小分布差异,并进行核化处理以适应非线性问题;遵循结构一致性,保证相近数据在映射后保持相近;引入正则项进行特征选择;通过散度计算进一步增加不同类别数据间的可分性,提高算法效率;综合优化。本发明专利技术采用迁移学习思想,通过对异构的源域及目标域数据分别进行映射和特征转换,得到具有相似特征及分布的子空间;并在异构应用中引入散度,利用散度特性进一步加强数据可分性,强化对具有不同特征不同分布的异构数据的分类,帮助提升目标任务的学习效果。

A Heterogeneous Domain Adaptation Method Based on Divergence Computing

【技术实现步骤摘要】
一种基于散度计算的异构域适应方法
本专利技术涉及机器学习
,具体涉及一种基于散度计算的异构域适应方法。
技术介绍
采用机器学习算法进行分类研究,是机器视觉和模式识别领域的热门研究课题。分类算法旨在将目标对象划分至其所属的类。为保证模型的准确性和可靠性,传统分类学习存在两个基本假设:(1)训练集和测试集的样本满足独立同分布;(2)只有具有足够多的可用训练样本,才能得到好的分类模型。但在实际问题中,有标签样本数据往往很缺乏且很难获得;训练集与测试集大多分布不匹配。因此,如何利用少量的有标签训练样本或者源领域数据,建立一个可靠的模型,对具有不同数据分布的目标领域进行预测,成为亟待解决的问题。迁移学习是运用已有知识,对不同但相关领域的问题进行求解的一种新的机器学习算法。它放宽了分类学习中的两个基本假设,旨在迁移源域中已有的知识,来解决目标领域中由于标签极少甚至没有而无法解决的学习问题。作为迁移学习的强大分支,域适应希望利用源域中大量的标签信息来学习目标域的有效分类器,已经在许多领域得到了应用,如目标识别、图像分类和文本分类等。最初,该方法被广泛应用于同构问题,即源域与目标域具有相同的特征类型。但随着实际应用的扩展,很难确保总能找到由类似特征取样得到的源域和目标域。因此,对于训练集和测试集具有不同分布及特征的情况,异构域适应方法更具通用性和挑战性。散度作为一个简单的几何函数,量化了一个分布距离其质心的平均平方距离。通过最大化整体散度和类间散度,并最小化类内散度,达到保留数据的总体可变性,并加强类的可分离型的目的,进一步缩小域之间的不匹配性,为域适应带来优秀的分类精度,获得令人满意的结果。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于散度计算的异构域适应方法,达到对来自不同分布和特征下的源域及目标域的有效迁移,并在异构域适应问题中引入散度计算,进一步提高数据可分离性,提高分类性能。本专利技术的目的可以通过采取如下技术方案达到:一种基于散度计算的异构域适应方法,包含以下步骤:S1、对源域和目标域中的数据样本分别进行预处理,获取源域和目标域数据集XS和XT;S2、假定源域及目标域分别存在映射AS和AT,将两者映射至潜在的共享子空间,并利用最大均值差异距离,即MMD距离,进行分布匹配,最小化两者的分布差异。为达到同时训练源域及目标域的目的,将源域及目标域的数据和映射分别重新组合得到数据X和映射A,进行同步训练。为适应非线性问题,可进一步引入核函数;S3、根据流行学习引入结构一致性,保证经过分布匹配后的同类数据距离接近,同时对映射矩阵引入正则化,进行合理的特征选择;S4、对源域数据最大化整体散度和类间散度,并最小化类内散度,在保留数据特性的同时,加强类别间的可分性,提高分类精度;S5、结合上述步骤S1-S4,优化目标函数,得到最终映射矩阵,利用映射后的源域数据训练SVM分类器,对映射后的目标域数据进行标签预测。进一步地,所述的步骤S1过程如下:S11、分别选取源域及目标域数据样本XS1和XT1;S12、对目标域数据中每个类,随机筛选三个样本,保留其标签,并将有标签样本置于数据集头部,得到XT2。通过以上处理可以提高分布匹配准确率,避免传统无监督学习可能导致的匹配偏差;S13、对源域和目标域的数据样本XS1和XT2分别进行归一化处理,得到源域和目标域的数据集XS和XT。进一步地,所述的MMD距离公式如下:其中,MMD(XS,XT)表示源域和目标域的整体MMD距离,MMD0(XS,XT)和MMDC(XS,XT)分别表示源域及目标域间的边缘分布适配和条件分布适配,nS和nT分别表示源域和目标域数据数量,c为某个数据类别,和分别表示源域和目标域中第c类的数据数量,和分别表示源域第c类的所有数据和目标域第c类的所有数据,xS,i表示源域中第i个数据,xT,j表示目标域中第j个数据,xk表示源域第c类中的某个数据,xl表示目标域第c类中的某个数据。进一步地,所述的步骤S2中将源域及目标域的数据和映射分别重新组合得到数据X和映射A具体如下:将源域及目标域的数据和映射分别组合为:A=[AS;AT],并对映射核化处理,其中,和均为全零矩阵,dS和dT分别为源域和目标域维度。进一步地,所述的步骤S2中还包括:对于非线性问题,考虑核映射即ψ(X)=[ψ(x1),…ψ(xn)],可得核矩阵K=ψ(X)Tψ(X),故映射重写为A=ψ(X)P,其中P=[PS;PT]代表转化矩阵,为源域及目标域转化矩阵PS和PT的组合。进一步地,所述的步骤S2中经过组合及核映射之后,MMD度量转化为如下计算:MMD=tr(PTKMKTP),其中,为MMD矩阵,(Mc)wv代表该矩阵第w行第v列的数值,xw和xv为计算该数值的某两个数据。进一步地,所述的步骤S3过程如下:S31、将结构一致性问题转化为最小化如下函数:其中zf和zg为相应数据xf和xg经过映射后所得的数据,n=nS+nT为源域及目标域数据数量之和,W为对称邻接矩阵,表示两数据间的相似度,其中每一项Nk(zg)为zg的k近邻,L=D-W为图拉普拉斯算符,其中D为对角矩阵,且对角项S32、对映射矩阵引入l2,1范数:||P||2,1,进行合理的特征选择。进一步地,所述的步骤S4中,整体散度为所有数据间的均方距离,类内散度为每个类中各数据间的均方距离,类间散度为各类均值间的均方距离,最终获得如下优化问题:其中,S=Sw-St-Sb为散度矩阵,为类内散度矩阵,为整体散度矩阵,为类间散度矩阵。且u为整体数据均值,uc为第c类数据的均值,C为类别c的集合,xm和xn分别代表数据集中的某个数据,为源域第c类数据。最小化类内散度可以减小类内距离,使同类数据更加紧凑;最大化整体散度可以最大化整体数据方差,保留数据特性;最大化类间散度可以增大各类数据间的差异,提高数据可分性。因此,我们在异构域适应问题中引入散度计算,且不局限于常用的类内散度。此举可以更加完善的保留数据特征,并进一步增大各类数据之间的距离,提高数据可分性,优化分类结果。进一步地,所述的步骤S5中,待优化的目标函数为:其中,α>0,β>0,γ>0为惩罚系数,且1n为大小为n×n的全1矩阵,s.t.PTKHKTP=I为用于避免平凡解的约束项。本专利技术相对于现有技术具有如下的优点及效果:(1)对来自不同域的数据样本分别学习其对应的映射,得到更加匹配的结果,避免学习单一映射导致的匹配差异。(2)在分别学习各域对应映射的基础上,组合源域和目标域的数据及映射,达到同步训练的目的,保证两者被映射至同一潜在子空间。(3)引入结构一致性和正则化,在保证同类数据紧凑的基础上进一步提取有用特征。(4)在异构问题中进一步引入散度计算,且不局限于类内散度的计算,通过对源域数据最大化整体散度和类间散度,并最小化类内散度,更加完善的保留数据特征,并进一步增大各类数据之间的距离,提高数据可分性,优化分类结果。附图说明图1是本专利技术中公开的一种基于散度计算的异构域适应方法的流程图;图2是本专利技术中分布匹配分类及目的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然本文档来自技高网
...

【技术保护点】
1.一种基于散度计算的异构域适应方法,其特征在于,所述的异构域适应方法包括以下步骤:S1、对源域和目标域中的数据样本分别进行预处理,获取源域和目标域数据集XS和XT;S2、假定源域及目标域分别存在映射AS和AT,将两者映射至潜在的共享子空间,并利用最大均值差异距离,进行分布匹配,最小化两者的分布差异,为同时训练源域及目标域,将源域及目标域的数据和映射分别重新组合,得到数据X和映射A;S3、根据流行学习引入结构一致性,保证同类数据经过分布匹配后距离保持接近,同时对映射矩阵引入正则化,进行合理的特征选择;S4、对源域数据最大化整体散度和类间散度,并最小化类内散度;S5、整合并优化目标函数,得到映射矩阵,利用映射后的源域数据训练SVM分类器,对映射后目标域数据进行标签预测。

【技术特征摘要】
1.一种基于散度计算的异构域适应方法,其特征在于,所述的异构域适应方法包括以下步骤:S1、对源域和目标域中的数据样本分别进行预处理,获取源域和目标域数据集XS和XT;S2、假定源域及目标域分别存在映射AS和AT,将两者映射至潜在的共享子空间,并利用最大均值差异距离,进行分布匹配,最小化两者的分布差异,为同时训练源域及目标域,将源域及目标域的数据和映射分别重新组合,得到数据X和映射A;S3、根据流行学习引入结构一致性,保证同类数据经过分布匹配后距离保持接近,同时对映射矩阵引入正则化,进行合理的特征选择;S4、对源域数据最大化整体散度和类间散度,并最小化类内散度;S5、整合并优化目标函数,得到映射矩阵,利用映射后的源域数据训练SVM分类器,对映射后目标域数据进行标签预测。2.根据权利要求1所述的一种基于散度计算的异构域适应方法,其特征在于,所述的步骤S1的过程如下:S11、分别选取源域及目标域数据样本XS1和XT1;S12、对目标域数据中每个类,随机筛选三个样本,保留其标签,并将有标签样本置于数据集头部,得到XT2;S13、对源域和目标域的数据样本XS1和XT2分别进行归一化处理,得到源域和目标域的数据集XS和XT。3.根据权利要求1所述的一种基于散度计算的异构域适应方法,其特征在于,所述的最大均值差异距离,即MMD距离公式如下:其中,MMD(XS,XT)表示源域和目标域的整体MMD距离,MMD0(XS,XT)和MMDC(XS,XT)分别表示源域及目标域间的边缘分布适配和条件分布适配,nS和nT分别表示源域和目标域数据数量,c为某个数据类别,和分别表示源域和目标域中第c类的数据数量,和分别表示源域第c类的所有数据和目标域第c类的所有数据,xS,i表示源域中第i个数据,xT,j表示目标域中第j个数据,xk表示源域第c类中的某个数据,xl表示目标域第c类中的某个数据。4.根据权利要求3所述的一种基于散度计算的异构域适应方法,其特征在于,所述的步骤S2中将源域及目标域的数据和映射分别重新组合得到数据X和映射A,具体如下:将源域及目标域的数据和映射分别组合为:A=[AS;AT],并对映射核化处理,其中,和均为全零矩阵,dS和dT分别为源域和目标域维度。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:周智恒王怡凡
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1