【技术实现步骤摘要】
一种基于原始数据信息保留的域自适应降维方法
本专利技术涉及面向机器学习领域的域自适应技术,具体是一种域自适应降维学习方法。
技术介绍
传统的机器学习方法假设训练数据和测试数据是从同一域或同一特征空间收集的,但在许多实际应用中,数据来自于不同的特征空间,各域之间的数据或其统计特性不断变化。以跨语言文档分类为例,由于词汇不同,英语文档与德语文档不具有相同的表示形式,数据的分布并不匹配。为了解决上述问题,提出了域自适应学习的思想,将数据跨域关联起来。在域自适应学习方法中,存在源域和目标域,源域具有较多的带标签的样本,目标域的样本带有很少的或基本没有标签信息。源域和目标域具有不同却相关的分布。域自适应学习的任务就是最大限度地减少域间数据分布差异及最大可能地探索目标域数据的标签。域自适应学习的研究现状中,可以分为三种类型:基于变权的方法,基于目标域自标记的方法和基于特征/投影的方法。基于变权的方法通过重新加权或选择一些特殊的实例来改进模型,重新加权或选择的标准是:如果源域某些样本和目标域样本相似度很高,就分配给它们较大的权重,反之,则分配较小的权重。但如何选择合适的样本并为 ...
【技术保护点】
1.一种基于原始数据信息保留的域自适应降维方法,其特征在于:A.令
【技术特征摘要】
1.一种基于原始数据信息保留的域自适应降维方法,其特征在于:A.令和分别表示源域和目标域数据样本,其中Ns表示源域样本个数,Nt表示目标域样本个数,D为高维空间的维度;通过匹配降维后源域和目标域之间的类条件概率分布和边缘概率分布差异,分别学习源域投影矩阵Ws和目标域投影矩阵Wt,得到源域和目标域在低维空间中相应的数据表示和其中d(d<<D)为低维空间的维度;用最大均值差异(MaximumMeanDiscrepancy简称MMD)测量域间的分布差异,源域和目标域间的边缘概率分布差异记为MMD(Ys,Yt);为目标域数据添加伪标签,源域和目标域间类条件概率分布差异为其中和分别表示属于第c类的源域样本和目标域样本,总的类别数为C类;最小化源域和目标域之间的边缘概率分布和类条件概率分布差异;B.在匹配源域和...
【专利技术属性】
技术研发人员:马争鸣,光毓,欧阳效源,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。