迁移学习方法及装置制造方法及图纸

技术编号:11439581 阅读:63 留言:0更新日期:2015-05-13 09:03
本发明专利技术公开了一种迁移学习方法及装置,方法包括:设置迁移学习的相关参数并初始化;开始迁移学习迭代,获得自动化标注数据;当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本发明专利技术的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。

【技术实现步骤摘要】
迁移学习方法及装置
本专利技术涉及机器学习领域,具体涉及一种迁移学习方法及装置。
技术介绍
在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中人们发现这两个条件往往无法满足。然而,作为机器学习中的一个重要分支的迁移学习则放宽了传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型,进而解决资源相对缺乏的目标领域的问题,即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。这一方法在目前的自然语言处理等领域有着广泛的应用,例如跨语言迁移问题、跨领域迁移问题以及其他的训练数据和测试数据来自不同分布的实际问题。因此,研究迁移学习变得非常重要。目前迁移学习的方法及其在NLP(NaturalLanguageProcess,自然语言处理)领域的应用,其侧重点在于如何利用源领域数据训练相关模型,给予目标领域未标注数据以正确的标签,并且将其中置信度高的样本按照一定比例添加到训练数据中,进而达到扩充训练集的目的。关于迁移学习的具有代表性的方法有自学习(self-training)、联合学习(co-training)等。然而,无论是自学习的迁移学习方法或是联合学习的迁移学习方法,在添加的样本选择和添加过程中,迁移到训练集的目标领域样本由于其标签来自于机器学习算法,可能有一定的错误率;特别是在其训练样本来自于源领域样本的前提下,错误率可能会更高。而随着样本迭代的进行,由于错误样本数量的不断累加,迁移学习算法的性能往往会下降,这种情况被称作“负迁移(negativetransfer)”,这和迁移样本引入的带有错误标签的迁移样本的累积是有着密切关系的。因为传统的迁移学习对无标注样本进行自动标注,其误差会在迭代过程中累积。在整个学习过程的初期,由于自动标注样本对训练集的扩充,算法的性能指标会出现上升,但是随着误分类样本的累积,样本质量变差,算法性能会在学习过程的中后期出现下降。对于答案未知的实际任务,这一问题使得实验人员很难确定算法停止迭代的时间点,影响了系统所能达到的性能。目前的针对迁移学习的机器学习方法,其着眼点往往在于基线方法的准确率,对于在迁移过程中的错误标签样本的问题并未解决。因此,寻找一种面向迁移学习过程中所产生的错误标签样本的检测方法,具有很强的现实意义。
技术实现思路
根据本专利技术的一个方面,提供一种迁移学习方法,包括:初始步骤:设置迁移学习的相关参数并初始化;样本获取步骤:开始迁移学习迭代,获得自动化标注数据;周期计算步骤:当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;结果处理步骤:根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。根据本专利技术的另一个方面,提供一种迁移学习装置,包括:初始模块,用于设置迁移学习的相关参数并初始化;样本获取模块,用于开始迁移学习迭代,获得自动化标注数据;周期计算模块,用于当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;结果处理模块,用于根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本专利技术的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。附图说明图1是本专利技术实施例1的迁移学习方法的基本流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下通过具体实施例并结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限制本专利技术。本专利技术的基本思想是在迁移学习的过程中,将学习过程细分为周期,判断每个最近周期中的自动标注样本的质量是否高于之前周期自动标注样本的质量。之后利用高质量的周期对之前周期的自动标注样本进行筛选,删除其中的低质量样本以达到提高迁移学习中自动标注样本质量的目的,进而提升系统的准确性。实施例1:如图1所示,本实施例的迁移学习方法包括步骤S10~S40。步骤S10为初始步骤,在该步骤中设置迁移学习的相关参数并初始化。例如,设置和初始化迁移学习的输入参数,包括有标注的源分布数据L、无标注的目标分布数据U、过往周期的自动标注数据集合TSc=φ、当前周期下的自动标注数据集合TSl=φ、进行误差检测的迭代周期T、迁移学习迭代的总次数(简称迭代总数)K、每轮迭代中自动标注的正负样本数目p和q、当前迭代的次数I、过往周期估计的误差界εpre、当前周期估计的误差界εnext、等等。步骤S20为样本获取步骤,即开始迁移学习迭代,获得自动化标注数据。在该步骤中,利用已有的有标注的源分布数据训练分类器,对无标注的目标分布数据进行分类,选取置信度高的分类结果进行自动化标注,从而扩大有标注数据规模。该步骤具体可包括步骤S201~S203。步骤S201:判断当前迭代次数是否小于迭代总数,如果是,执行步骤S202,如果否,则结束迁移学习。步骤S202:训练基分类器,即在有标注的源分布数据上训练基分类器,具体训练方式可参考已有的迁移学习方法中的相关技术实现,例如自学习的迁移学习方法、联合学习的迁移方法等。步骤S203:自动化标注数据,即利用训练的基分类器进行分类,向过往周期的自动标注数据集合TSc添加置信度最高的p个正例和q个反例,并自动化标注为C的分类结果。步骤S30为周期计算步骤,在该步骤中,当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量。具体地该步骤可包括步骤S301~S304。步骤S301:判断当前迭代次数是否整除迁移周期,如果是,则执行步骤S301,如果否,则执行步骤S404。步骤S302:计算错误率,即将每次迭代后的自动化标注数据作为一个样本,计算当前迭代周期内各个样本的错误率,错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到。在本实施例中采用基于统计的KNN(K近邻分类算法,即K-NearestNeighborhoodClassification)图模型方法计算错误率,即对TSl∪TSc中的每一个样本i建立KNN图G,并且利用如下公式(1)估计其错误率ηi。具体地,对于每个待分析样本i以及其最相似的k个样本(或者是在当前迁移周期中的其它样本),计算二者的相似度wij和距离函数Iij,其中j属于k,对于Iij,如果,j与i的标注相同,则Iij=1,否则Iij=-4。这里值1和-4可以根据实际情况设置为其它数值,这里是示例说明。相似度的计算可以采用已有的相关技术,在此不作详述。然后,每个待分析样本,利用以下公式(1)估计其错误率。其中,ηi表示样本i的错误率,wij表示样本i与其本文档来自技高网
...
迁移学习方法及装置

【技术保护点】
一种迁移学习方法,其特征在于,包括:初始步骤:设置迁移学习的相关参数并初始化;样本获取步骤:开始迁移学习迭代,获得自动化标注数据;周期计算步骤:当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;结果处理步骤:根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。

【技术特征摘要】
1.一种提高分类器精度的迁移学习方法,其特征在于,包括:初始步骤:设置迁移学习的相关参数并初始化;样本获取步骤:开始迁移学习迭代,获得自动化标注数据;周期计算步骤:当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;结果处理步骤:根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器;其中,所述周期计算步骤包括:将每次迭代后的自动化标注数据作为一个样本,计算当前迭代周期内各个样本的错误率,所述错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到;根据计算得到的当前迭代周期中各个样本的错误率,计算当前迭代周期的误差界,从而确定当前迭代周期的样本相对质量;其中,所述错误率的计算公式包括:其中,ηi表示样本i的错误率,wij表示样本i与其它样本j的相似度,Iij表示样本i与其它样本j的标签距离,||w||1和||w||2为关于w的L1范数和L2范数,w为每一个wij作为向量的一个分量而组成的和向量。2.如权利要求1所述的方法,其特征在于,所述周期计算步骤包括:将每次迭代后的自动化标注数据作为一个样本,将当前迭代周期内的所有样本分为至少两个集合,其中一个集合作为测试集,剩余集合作为训练集,利用交叉验证法进行计算,得到每个样本的分类错误概率;根据计算得到的当前迭代周期中各个样本的分类错误概率,计算当前迭代周期的误差界,从而确定当前迭代周期的样本相对质量。3.如权利要求1所述的方法,其特征在于,所述结果处理步骤包括:将当前迭代周期的样本相对质量与前一迭代周期的样本相对质量进行比较,如果当前迭代周期的样本相对质量高于前一迭代周期的样本相对质量,删除前一迭代周期中错误率大于预定错误率阈值的样本,继续迁移学习迭代,如果当前迭代周期的样本相对质量低于前一迭代周期的样本相对质量,则终止迁移学习迭代,输出保留的样本和迁移分类器。4.如权利要求1所述的方法,其特征在于,所述样本获取步骤包括:利用已有的有标注的元分类数据训练迁移分类器,利用训练得到的迁移分类器对无标注的目标分布数据进行分类,选取置信度...

【专利技术属性】
技术研发人员:桂林徐睿峰陆勤周俞
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1