基于标签比例学习的迁移学习分类方法、系统及设备技术方案

技术编号：21433648 阅读：29 留言：0更新日期：2019-06-22 12:21

本申请公开了一种基于标签比例学习的迁移学习分类方法、系统及设备和介质，方法包括：获取两个具有预设关联关系的标签比例数据集，从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集；利用预设训练算法对原任务数据集和目标任务数据集进行训练，并利用迁移学习将原任务对应的知识迁移至目标任务，构建得到目标分类函数；利用目标分类函数对待识别实例的标签进行预测；其中，待识别实例包括：文本、图像。本申请首先确定原任务数据集和目标任务数据集，将原任务知识迁移至目标任务，以利用原任务的知识帮助目标任务构建目标分类函数，也即，本申请能将迁移学习与标签比例学习结合，有效地提高了分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于标签比例学习的迁移学习分类方法、系统及设备
本申请涉及数据挖掘
，更具体地说，涉及一种基于标签比例学习的迁移学习分类方法、系统及一种电子设备和一种计算机可读存储介质。
技术介绍
标签比例学习(LearningwithLabelProportions)与监督学习、半监督学习、非监督学习不同，是一种包学习问题，在标签比例学习问题中，每个样本被分到不同的包中，但只有每个包中的某类样本所占的比例信息是已知的，学习的主要目的是通过训练模型得到包中每个样本的标签，因为不需要知道获取的样本中每个样本的标签，因此在实际应用中发挥了重要的作用。例如：在商业银行基金客户数据中并未标记具体某个客户是否为重要客户，但通常情况下基金客户管理者根据以往的管理经验可以估计出所有的基金客户中重要客户所占的比例，可以利用仅有的这个比例去挖掘和识别基金客户中重要客户，这对于有效解决隐私保护下的重要基金客户识别问题提供了一种新途径，具有明显的现实意义及实践价值。近年来，迁移学习(TransferLearning)已经引起了广泛的关注和研究，它是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。如图1a、图1b所示，图1a中传统机器学习试图从一开始就学习和训练每一个任务，而图1b迁移学习则试图将原任务中(Sourcetask)的知识迁移到目标任务(Targettask)。关于标签比例学习已经做了很多工作，目前的标签比例学习方法，如MeanMap方法、Alter-∝SVM方法还有Conv-∝SVM方法，以上算法均将标签比例学习视为单一任务，不能解决迁移学习问题，可能会造...

【技术保护点】
1.一种基于标签比例学习的迁移学习分类方法，其特征在于，包括：获取两个具有预设关联关系的标签比例数据集，并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集；利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练，并利用迁移学习将所述原任务对应的知识迁移至所述目标任务，构建得到所述目标任务对应的目标分类函数；利用所述目标分类函数对待识别实例的标签进行预测；其中，所述待识别实例包括：文本、图像。

【技术特征摘要】
1.一种基于标签比例学习的迁移学习分类方法，其特征在于，包括：获取两个具有预设关联关系的标签比例数据集，并从中确定原任务对应的原任务数据集和目标任务对应的目标任务数据集；利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练，并利用迁移学习将所述原任务对应的知识迁移至所述目标任务，构建得到所述目标任务对应的目标分类函数；利用所述目标分类函数对待识别实例的标签进行预测；其中，所述待识别实例包括：文本、图像。2.根据权利要求1所述的迁移学习分类方法，其特征在于，所述利用预设训练算法对所述原任务数据集和所述目标任务数据集进行训练，并利用迁移学习将所述原任务对应的知识迁移至所述目标任务，构建得到所述目标任务对应的目标分类函数，包括：分别确定所述原任务数据集和所述目标任务数据集中包的个数以及包中正示例的比例；基于所述个数和所述比例，利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练，并将所述知识迁移至所述目标任务，构建得到所述目标分类函数。3.根据权利要求2所述的迁移学习分类方法，其特征在于，所述基于所述个数和所述比例，利用SVR算法对所述原任务数据集和所述目标任务数据集进行训练，并利用迁移学习将所述原任务对应的知识迁移至所述目标任务，构建得到所述目标分类函数，包括：基于第一公式确定特殊参数和公共参数；其中，所述第一公式为：约束条件为：其中，w0为所述公共参数；v1、v2为所述特殊参数；λ1，λ2＞0为用来控制原任务和目标任务的比重的参数；C1和C2为边缘与经验损失的权衡参数；t1为所述原任务数据集中包的个数；t2为所述目标任务数据集中包的个数；ξ为松弛变量；为关于所述松弛变量ξ的凸损失函数；xi、yi分别为包的第i个示例及其标签；ε为最大可容忍损失；p为所述比例；Bis为所述原任务数据集；Bmt为所述目标任务数据集；利用所述特殊参数和所述公共参数确定所述目标分类函数为：f(x)＝sign(<w2，x>+b2)；其中，b2为偏差。4.根据权利要求3所述的迁移学习分类方法，其特征在于，所述基于第一公式确定特殊参数和公共参数，包括：通过引入增广拉格朗日乘子，利用所述第...

【专利技术属性】
技术研发人员：汪槐沛，肖燕珊，刘波，梁飞，苌征，尹子键，郝志峰，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人