域自适应分类器的构造及数据分类的方法和装置制造方法及图纸

技术编号：10541651 阅读：169 留言：0更新日期：2014-10-15 17:10

本发明专利技术提供了一种域自适应分类器的构造及数据分类的方法和装置，其中，该构造方法包括：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；基于所述组合罚目标函数确定域自适应泛化误差上界；基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。本发明专利技术解决了现有技术中源域和目标域分布不一致的问题，在保证收敛的前提下可以实现更为准确的分类别，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域信息处理的问题。

全部详细技术资料下载

【技术实现步骤摘要】
域自适应分类器的构造及数据分类的方法和装置
本专利技术涉及数据分类
，特别涉及一种域自适应(DomainAdaptation，DA)分类器的构造及数据分类的方法和装置。
技术介绍
人工智能和机器学习的核心问题是：如何表示领域中存在的知识，以及如何利用已有的知识进行分析处理，得到人们所感兴趣的知识。在当前的机器学习研究领域中存在着一个关键的问题，即，通常假设训练样本和测试样本来自同一概率分布，通过对训练样本进行学习得到相应的模型和判别准则，对待测试的样例的输出进行预测。但是在实际应用中，训练数据与测试数据的分布可能是不同的，这就导致传统的机器学习方法训练得到的模型无法有效地对待测试样本的输出进行学习。在一些新出现的应用领域(例如：Web数据挖掘、故障诊断、图像处理、语音识别与信息解码等)中经常会出现无法从这些新应用领域中获得训练数据的情况，然而，在这些领域中与学习任务相关的数据量却很大，如果要实现对目标领域的学习就必须利用与这些任务相关的数据，然而训练数据和测试数据概率分布的不一致会严重影响传统机器学习方法的性能，相反地，即使拥有了大量的、在不同分布下的训练数据，针对新的兴趣领域，完全丢弃这些训练数据而重新构建训练数据也是非常困难的，而且成本极高。
技术实现思路
本专利技术实施例提供了一种域自适应分类器的构造方法，以达到降低计算复杂度，解决普通模式识别无法处理的跨领域信息处理的问题的目的。该方法包括：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；基于所述组合罚目标函数确定域自适应泛化误差上界；基于所...
域自适应分类器的构造及数据分类的方法和装置

【技术保护点】
一种域自适应分类器的构造方法，其特征在于，包括：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；基于所述组合罚目标函数确定域自适应泛化误差上界；基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。

【技术特征摘要】
1.一种域自适应分类器的构造方法，其特征在于，包括：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；基于所述组合罚目标函数确定域自适应泛化误差上界；基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器；其中，确定的所述组合罚目标函数为：εα(h)＝αεT(h)+(1-α)εS(h)其中，εα(h)表示组合罚目标函数，εT(h)表示目标域期望误差，εS(h)表示源域期望误差，α∈[0,1]，h表示假设函数类H中的参考假设函数；其中，基于所述组合罚目标函数确定的域自适应泛化误差上界为：对于以至少1-δ的概率对所有h∈H成立以下不等式：其中，H表示d维假设空间的假设函数类，d表示维度，S＝(ST,SS)表示包含m个已标识样例的样本集，其中ST表示来自目标域DT的βm个已标识样例集，SS表示来自源域DS的(1-β)m个已标识样例集，US,UT表示m'个未标识样例集，表示使组合经验误差取值最小的假设函数，其中，组合经验误差表示目标域经验误差，表示源域经验误差，表示使目标域误差最小的假设函数，表示源域和目标域的经验对称差距离，表示使组合经验误差取值最小的假设函数在目标域上的误差的数学期望，表示使目标域误差最小的假设函数在目标域上的误差的数学期望；其中，基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，包括：将确定的所述域自适应泛化误差上界转换为如下的替代误差上界：对于以至少1-δ的概率对所有h∈H成立以下不等式：其中，目标域DT的样例总个数为m'，其中，已标识样例个数为未标识样例个数为源域DS的样例总个数为m'，都是已标识样例，δ表示使用算法的用户给出的分类算法的置信度参数；基于所述替代误差上界，对两个以上分类器进行协同训练；其中，基于所述替代误差上界，对两个以上分类器进行协同训练，包括：获取训练样本集，其中，所述训练样本集包括源域的训练样本和目标域的训练样本；对每个分类器进行初始化，并为每个分类器分配训练样本；对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者各个分类器的权值w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w的取值，将求得的w的取值作为下一次重复操作时w的取值；将求得的w的值作为所述目标函数的最优解；其中，所述判别条件包括：且其中，t表示重复次数，为正整数。2.如权利要求1所述的方法，其特征在于，所述目标域期望误差和所述源域期望误差采用以下函数之一表示：逻辑斯蒂损失函数、铰链损失函数、最小二乘损失函数。3.一种数据分类方法，其特征在于，包括：获取目标域样本数据；通过权利要求1或2所述的方法构造的域自适应分类器对所述样本数据进行分类。4.一种域自适应分类器的构造装置，其特征在于，包括：目标函数确定模块，用...

【专利技术属性】
技术研发人员：刘建伟，孙正康，罗雄麟，
申请(专利权)人：中国石油大学北京，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人