基于多源领域实例迁移的情感分类方法技术

技术编号:9991076 阅读:119 留言:0更新日期:2014-05-02 04:40
本发明专利技术涉及一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明专利技术可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本专利技术可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。【专利说明】
本专利技术涉及一种。
技术介绍
迁移学习根据不同任务间的相似性,将源领域数据向目标领域迁移,实现对已有知识的利用,使传统的从零开始学习变成可积累的学习,并且提高了学习效率,其最大的特点就是利用相关领域的知识来帮助完成目标领域的学习任务。源领域和目标领域中相关知识的表达方式有很多,可分为样本实例、特征映射、模型参数和关联规则,针对不同的知识表达方式选择恰当的迁移学习方法是保障目标领域学习的前提。对于知识表达为样本实例的研究,重在对源领域中的数据进行加权选择,然后将胜出部分数据用于目标任务的学习过程中。其基本思想是,尽管辅助训练样本和源领域中的训练样本会有些不同,但是辅助训练样本中应该还是会存在一部分比较适合用来训练一个有效的分类模型的样本。假设源领域中存在一部分实例是可以被重新利用的,这些实例可以帮助目标任务的学习。通常,重新利用这一部分实例的方法是对实例权重进行重新加权,权重大的实例对新任务的学习影响相对较大,从而有效促进新任务的学习。其中最典型的算法当属2007年的会议“24th International Conferenceon Machine Learning,,上发表的文章〈〈Boosting for transfer learning〉〉中提至Ij 的TrAdaBoost,该算法利用Boosting技术建立一种自动调整权重的机制。在每一次迭代中,针对源数据和目标数据分别进行不同的权重调整机制:(1)如果一个源样本被错误分类,就降低这个样本的权重。这样,在下一次迭代中,该样本对分类模型的影响就会降低。经过若干轮迭代之后,源数据中与目标数据相似度偏低的数据就会拥有相对更高的权重,而那些与目标数据相似的数据权重将会降低。(2)如果一个目标样本被错误分类,则增加这个样本的权重,用来强调这个样本,使得该样本在下一次迭代中被错分的概率减小。此外,TrAdaBoost方法被扩展为许多迁移学习方法,例如2009年的会议“IEEE InternationalConference on Data Mining Workshops,,上发表的文章((Set-based boosting forinstance-level transfer)) 一文中提到的TransferBoost方法,在可以得到多个源任务的情况下采用推进方法,它可以提升所有源样本矢量,这些样本均来自具有正迁移性的任务中。TransferBoost对计算每个源任务的整体迁移,作为仅含目标的任务和加入源任务的目标任务之间误差的不同。2010 年的会议“International Workshop on Handling ConceptDrift in Adaptive Information Systems,,上发表的文章〈〈Cost-sensitive boosting forconcept drift))中提到的概念漂移,利用AdaCost,则固定代价成为源矢量更新的一部分。利用可能性估计作为测量源分布和目标分布相关性的方法,这个代价能预先计算得到。另夕卜,中国专利说明书CN201110452050.X公开的非平衡样本分类的集成迁移学习方法,利用已有旧数据的分类规律找出近似分布的新数据的分类规律,尤其是针对分类不平衡数据的分类问题提供了新的方法,保证了分类中数量少的负样本在分类训练中的作用。TrAdaBoost是第一种使用Boosting作为归纳迁移学习器的迁移学习方法,应用非常广泛。但它也有一些缺点,例如权重不匹配,当源样本的规模比目标样本的规模大得多时,则需要经过多次迭代,才能使目标样本的总体权重接近于源样本的总体权重;引用不平衡,TrAdaBoost方法有时得出的最终分类器总是对所有的样本给出同一个预测标记,这实质上是由于没有平衡不同等级之间的权重造成的;源领域权重的下降速度过快,这是TrAdaBoost方法最严重的问题,在TrAdaBoost方法重新确定权重的策略中,源样本和目标样本的权重的差异性逐渐增加,并且在随后的迭代中,即使源样本变得对目标领域学习有利,其权重也没有办法恢复。TransferBoost方法假设源训练数据来自不同的源领域,在每次迭代中,选择与目标领域最相关的源领域训练弱分类器,最后得到强分类器。这种方法可以保证迁移的知识与目标任务最相关,但它却忽略了其他源任务对目标任务学习的影响。概念漂移方法中,由于这种更新源权重的方法利用了 TrAdaBoost的更新机制,它也同样产生了一个冲突,和目标任务不相关的源任务会引起负迁移,它的样本权重会以固定的或者动态变化的比率在TrAdaBoost更新机制中变得越来越少,即使TrAdaBoost只增加错误分类样本的权重,这个更新机制也同时增加这些相同的权重。
技术实现思路
本专利技术的目的是提供一种,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本专利技术可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。本专利技术是通过以下技术方案实现的:一种,包括以下步骤: 步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象; 步骤1.1),初始化权矢量【权利要求】1.一种,其特征是,包括以下步骤: 步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象; 步骤1.1 ),初始化权矢量 2.根据权利要求1所述一种,其特征是,本专利技术中源样本权矢量的更新使用加权多数算法WMA,通过迭代降低错误分类源样本的权重来调整源数据集的权重,并保存正确分类源样本的当前权重值。3.根据权利要求1所述一种,其特征是,所述步骤3.3)中为了满足 4.根据权利要求1所述一种,其特征是,所述步骤3.4)中动态因子Ct的计算公式的推导方法为:首先令i本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张倩李海港张勇
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1