基于标签比例学习的迁移学习分类方法、系统及设备技术方案

技术编号:21433648 阅读:29 留言:0更新日期:2019-06-22 12:21
本申请公开了一种基于标签比例学习的迁移学习分类方法、系统及设备和介质,方法包括:获取两个具有预设关联关系的标签比例数据集,从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;利用预设训练算法对原任务数据集和目标任务数据集进行训练,并利用迁移学习将原任务对应的知识迁移至目标任务,构建得到目标分类函数;利用目标分类函数对待识别实例的标签进行预测;其中,待识别实例包括:文本、图像。本申请首先确定原任务数据集和目标任务数据集,将原任务知识迁移至目标任务,以利用原任务的知识帮助目标任务构建目标分类函数,也即,本申请能将迁移学习与标签比例学习结合,有效地提高了分类精度。

【技术实现步骤摘要】
基于标签比例学习的迁移学习分类方法、系统及设备
本申请涉及数据挖掘
,更具体地说,涉及一种基于标签比例学习的迁移学习分类方法、系统及一种电子设备和一种计算机可读存储介质。
技术介绍
标签比例学习(LearningwithLabelProportions)与监督学习、半监督学习、非监督学习不同,是一种包学习问题,在标签比例学习问题中,每个样本被分到不同的包中,但只有每个包中的某类样本所占的比例信息是已知的,学习的主要目的是通过训练模型得到包中每个样本的标签,因为不需要知道获取的样本中每个样本的标签,因此在实际应用中发挥了重要的作用。例如:在商业银行基金客户数据中并未标记具体某个客户是否为重要客户,但通常情况下基金客户管理者根据以往的管理经验可以估计出所有的基金客户中重要客户所占的比例,可以利用仅有的这个比例去挖掘和识别基金客户中重要客户,这对于有效解决隐私保护下的重要基金客户识别问题提供了一种新途径,具有明显的现实意义及实践价值。近年来,迁移学习(TransferLearning)已经引起了广泛的关注和研究,它是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。如图1a、图1b所示,图1a中传统机器学习试图从一开始就学习和训练每一个任务,而图1b迁移学习则试图将原任务中(Sourcetask)的知识迁移到目标任务(Targettask)。关于标签比例学习已经做了很多工作,目前的标签比例学习方法,如MeanMap方法、Alter-∝SVM方法还有Conv-∝SVM方法,以上算法均将标签比例学习视为单一任务,不能解决迁移学习问题,可能会造成分类效果不理想。因此,如何解决上述问题是本领域技术人员需要重点关注的。
技术实现思路
本申请的目的在于提供一种基于标签比例学习的迁移学习分类方法、系统及一种电子设备和一种计算机可读存储介质,有效地提高了分类精度。为实现上述目的,本申请提供了一种基于标签比例学习的迁移学习分类方法,包括:获取两个具有预设关联关系的标签比例数据集,并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数;利用所述目标分类函数对待识别实例的标签进行预测;其中,所述待识别实例包括:文本、图像。可选的,所述利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数,包括:分别确定所述原任务数据集和所述目标任务数据集中包的个数以及包中正示例的比例;基于所述个数和所述比例,利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练,并将所述知识迁移至所述目标任务,构建得到所述目标分类函数。可选的,所述基于所述个数和所述比例,利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标分类函数,包括:基于第一公式确定特殊参数和公共参数;其中,所述第一公式为:约束条件为:其中,w0为所述公共参数;v1、v2为所述特殊参数;λ1,λ2>0为用来控制原任务和目标任务的比重的参数;C1和C2为边缘与经验损失的权衡参数;t1为所述原任务数据集中包的个数;t2为所述目标任务数据集中包的个数;ξ为松弛变量;为关于所述松弛变量ξ的凸损失函数;xi、yi分别为包的第i个示例及其标签;ε为最大可容忍损失;p为所述比例;Bis为所述原任务数据集;Bmt为所述目标任务数据集;利用所述特殊参数和所述公共参数确定所述目标分类函数为:f(x)=sign(<w2,x>+b2);其中,b2为偏差。可选的,所述基于第一公式确定特殊参数和公共参数,包括:通过引入增广拉格朗日乘子,利用所述第一公式得到第二公式;其中,所述第二公式为:其中,为拉格朗日乘子,根据所述第二公式确定所述增广拉格朗日乘子,并利用所述第三公式确定所述特殊参数和所述公共参数;其中,所述第三公式为:w2=w0+v2。可选的,所述从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集之后,还包括:对所述原任务数据集和所述目标任务数据集进行滤波、去噪的预处理操作。为实现上述目的,本申请提供了一种基于标签比例学习的迁移学习分类系统,包括:数据获取模块,用于获取两个具有预设关联关系的标签比例数据集,并确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;函数构建模块,用于利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数;标签预测模块,用于利用所述目标分类函数对待识别实例的标签进行预测;其中,所述待识别实例包括:文本、图像。可选的,所述函数构建模块,包括:确定单元,用于分别确定所述原任务数据集和所述目标任务数据集中包的个数以及包中正示例的比例;数据训练单元,用于基于所述个数和所述比例,利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练,并将所述知识迁移至所述目标任务,构建得到所述目标分类函数。可选的,还包括:数据预处理模块,用于在从所述标签比例数据集中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集之后,对所述原任务数据集和所述目标任务数据集进行滤波、去噪的预处理操作。为实现上述目的,本申请提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前述公开的任一种基于标签比例学习的迁移学习分类方法的步骤。为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述公开的任一种基于标签比例学习的迁移学习分类方法的步骤。通过以上方案可知,本申请提供的一种基于标签比例学习的迁移学习分类方法,包括:获取两个具有预设关联关系的标签比例数据集,并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数;利用所述目标分类函数对待识别实例的标签进行预测;其中,所述待识别实例包括:文本、图像。本申请首先确定原任务数据集和目标任务数据集,进一步将原任务的知识迁移至目标任务,以利用原任务的知识帮助目标任务构建最终的目标分类函数,也即,本申请能够将迁移学习与标签比例学习结合,从而有效地提高了分类精度。本申请还公开了一种基于标签比例学习的迁移学习分类系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以本文档来自技高网
...

【技术保护点】
1.一种基于标签比例学习的迁移学习分类方法,其特征在于,包括:获取两个具有预设关联关系的标签比例数据集,并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数;利用所述目标分类函数对待识别实例的标签进行预测;其中,所述待识别实例包括:文本、图像。

【技术特征摘要】
1.一种基于标签比例学习的迁移学习分类方法,其特征在于,包括:获取两个具有预设关联关系的标签比例数据集,并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集;利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数;利用所述目标分类函数对待识别实例的标签进行预测;其中,所述待识别实例包括:文本、图像。2.根据权利要求1所述的迁移学习分类方法,其特征在于,所述利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标任务对应的目标分类函数,包括:分别确定所述原任务数据集和所述目标任务数据集中包的个数以及包中正示例的比例;基于所述个数和所述比例,利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练,并将所述知识迁移至所述目标任务,构建得到所述目标分类函数。3.根据权利要求2所述的迁移学习分类方法,其特征在于,所述基于所述个数和所述比例,利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练,并利用迁移学习将所述原任务对应的知识迁移至所述目标任务,构建得到所述目标分类函数,包括:基于第一公式确定特殊参数和公共参数;其中,所述第一公式为:约束条件为:其中,w0为所述公共参数;v1、v2为所述特殊参数;λ1,λ2>0为用来控制原任务和目标任务的比重的参数;C1和C2为边缘与经验损失的权衡参数;t1为所述原任务数据集中包的个数;t2为所述目标任务数据集中包的个数;ξ为松弛变量;为关于所述松弛变量ξ的凸损失函数;xi、yi分别为包的第i个示例及其标签;ε为最大可容忍损失;p为所述比例;Bis为所述原任务数据集;Bmt为所述目标任务数据集;利用所述特殊参数和所述公共参数确定所述目标分类函数为:f(x)=sign(<w2,x>+b2);其中,b2为偏差。4.根据权利要求3所述的迁移学习分类方法,其特征在于,所述基于第一公式确定特殊参数和公共参数,包括:通过引入增广拉格朗日乘子,利用所述第...

【专利技术属性】
技术研发人员:汪槐沛肖燕珊刘波梁飞苌征尹子键郝志峰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1