迁移学习方法及装置制造方法及图纸

技术编号：11439581 阅读：63 留言：0更新日期：2015-05-13 09:03

本发明专利技术公开了一种迁移学习方法及装置，方法包括：设置迁移学习的相关参数并初始化；开始迁移学习迭代，获得自动化标注数据；当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。本发明专利技术的有益效果是：在迁移学习过程中，将学习过程按迁移周期划分，每满一个迁移周期则进行误差检测，根据误差检测确定的样本相对质量筛选样本，由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的，进而提升应用迁移学习方法的系统的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
迁移学习方法及装置
本专利技术涉及机器学习领域，具体涉及一种迁移学习方法及装置。
技术介绍
在传统分类学习中，为了保证训练得到的分类模型具有准确性和高可靠性，都有两个基本的假设：(1)用于学习的训练样本与新的测试样本满足独立同分布的条件；(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是，在实际应用中人们发现这两个条件往往无法满足。然而，作为机器学习中的一个重要分支的迁移学习则放宽了传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型，进而解决资源相对缺乏的目标领域的问题，即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。这一方法在目前的自然语言处理等领域有着广泛的应用，例如跨语言迁移问题、跨领域迁移问题以及其他的训练数据和测试数据来自不同分布的实际问题。因此，研究迁移学习变得非常重要。目前迁移学习的方法及其在NLP(NaturalLanguageProcess，自然语言处理)领域的应用，其侧重点在于如何利用源领域数据训练相关模型，给予目标领域未标注数据以正确的标签，并且将其中置信度高的样本按照一定比例添加到训练数据中，进而达到扩充训练集的目的。关于迁移学习的具有代表性的方法有自学习(self-training)、联合学习(co-training)等。然而，无论是自学习的迁移学习方法或是联合学习的迁移学习方法，在添加的样本选择和添加过程中，迁移到训练集的目标领域样本由于其标签来自于机器学习算法，可能有一定的错误率；特别是在其训练样本来自于源领域样本的前提下，错误率可能会更高...
迁移学习方法及装置

【技术保护点】
一种迁移学习方法，其特征在于，包括：初始步骤：设置迁移学习的相关参数并初始化；样本获取步骤：开始迁移学习迭代，获得自动化标注数据；周期计算步骤：当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；结果处理步骤：根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。

【技术特征摘要】
1.一种提高分类器精度的迁移学习方法，其特征在于，包括：初始步骤：设置迁移学习的相关参数并初始化；样本获取步骤：开始迁移学习迭代，获得自动化标注数据；周期计算步骤：当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；结果处理步骤：根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器；其中，所述周期计算步骤包括：将每次迭代后的自动化标注数据作为一个样本，计算当前迭代周期内各个样本的错误率，所述错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到；根据计算得到的当前迭代周期中各个样本的错误率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量；其中，所述错误率的计算公式包括：其中，ηi表示样本i的错误率，wij表示样本i与其它样本j的相似度，Iij表示样本i与其它样本j的标签距离，||w||1和||w||2为关于w的L1范数和L2范数，w为每一个wij作为向量的一个分量而组成的和向量。2.如权利要求1所述的方法，其特征在于，所述周期计算步骤包括：将每次迭代后的自动化标注数据作为一个样本，将当前迭代周期内的所有样本分为至少两个集合，其中一个集合作为测试集，剩余集合作为训练集，利用交叉验证法进行计算，得到每个样本的分类错误概率；根据计算得到的当前迭代周期中各个样本的分类错误概率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量。3.如权利要求1所述的方法，其特征在于，所述结果处理步骤包括：将当前迭代周期的样本相对质量与前一迭代周期的样本相对质量进行比较，如果当前迭代周期的样本相对质量高于前一迭代周期的样本相对质量，删除前一迭代周期中错误率大于预定错误率阈值的样本，继续迁移学习迭代，如果当前迭代周期的样本相对质量低于前一迭代周期的样本相对质量，则终止迁移学习迭代，输出保留的样本和迁移分类器。4.如权利要求1所述的方法，其特征在于，所述样本获取步骤包括：利用已有的有标注的元分类数据训练迁移分类器，利用训练得到的迁移分类器对无标注的目标分布数据进行分类，选取置信度...

【专利技术属性】
技术研发人员：桂林，徐睿峰，陆勤，周俞，
申请(专利权)人：哈尔滨工业大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人