本发明专利技术公开了利用缺失多标签数据实现多标签模型训练框架的实现方法,该方法整合多个单一标签数据集,形成不完整多标签数据集,采用共享分支网络结合非共享分支网络的结构,进行统一训练,实现对目标样本多标签进行同时输出的训练。本发明专利技术能够实现单一模型同时训练多个标签(属性),方便部署;且本发明专利技术的训练框架,采用共享权值分支的存在,共享权值分支只需要进行唯一一次前向传播计算,显著地降低了网络前向传播过程中的计算次数和计算资源消耗,也因为共享特征提取器的原因,共享了共享特征提取器所包含的网络参数,显著地减少了模型的大小。
【技术实现步骤摘要】
利用缺失多标签数据实现多标签模型训练框架的实现方法
本专利技术涉及,具体涉及利用缺失多标签数据实现多标签模型训练框架的实现方法。
技术介绍
在监督学习的框架下,使用深度学习模型完成分类识别任务,需要每一份训练数据都具有标签(属性)。与此同时,当需要单个模型能够对多个标签(属性)进行同时预测时候,通常情况下需要保证每一个训练样本的每一个标签(属性)都是完整的。然而,获取具有多标签(属性)标注的数据需要耗费大量的人力;且通常情况下,更大规模的网络结构意味着更好的泛化能力。但如果数据集的大小不能与模型的规模相匹配,则网络会造成严重的过拟合情况,导致其泛化能力急剧下降。当训练多个单一属性模型的时候,由于各个数据集之间的规模可能不同,如果使用单一相同网络结构进行训练,则可能出现过拟合和欠拟合的情况。
技术实现思路
为了解决上述现有技术存在的技术问题,本专利技术提供了利用缺失多标签数据实现多标签模型训练框架的实现方法,本专利技术考虑到需要同时预测的一系列标签(属性)具有相关性,其在深度网络中对应的特征具有相似性,因此我们提出了一种整合多个单一标签(属性)数据集,形成不完整多标签数据集,进行统一训练,在预测阶段实现对目标样本多标签(属性)进行同时输出的训练方式。本专利技术通过下述技术方案实现:利用缺失多标签数据实现多标签模型训练框架的实现方法,包括以下步骤:步骤一、整合多个单一标签数据集,生成不完整多标签数据集;步骤二、从不完整多标签数据集中随机选取样本数据,将样本数据输入到共享分支网络中进行特征提取,获得共享分支的特征输出;步骤三、将共享分支的特征输出分别输入到对应的非共享分支网络,在每一个非共享分支处得到对应任务的输出预测值集合;步骤四、逐一利用每一个非共享分支处的输出预测值集合完成非共享分支网络的权重更新,在所有非共享分支网络完成更新之后,继续完成共享分支的权重更新,实现利用缺失多标签数据完成多标签模型的训练。优选的,所述步骤一具体包括:步骤1.1获取多个单一标签数据集并进行整合;步骤1.2对多个单一标签数据集进行整合时,将合并后的数据集中来自某一标签数据集的样本的其他标签设置为-1,代表缺失标签值;步骤1.3整合后,生成不完整多标签数据集,不完整多标签数据集中每一个样本为B=(xdata,label1,label2,…,labeln),其中,xdata代表原始数据,labelj代表n个属性中第j个属性的具体取值。优选的,所述步骤四中采用改进的SGD反向传播算法进行权重更新。优选的,所述步骤四具体包括:步骤4.1利用每一个非共享分支处得到的输出预测值集合,并结合该预测值集合对应于该分支的标签,删除标签为-1对应索引的预测值和特征,根据剩下的标签为非-1对应的标签值和预测值,基于SGD使用损失函数Lossi完成该非共享分支的权重Wi更新,并记录该分支顶点处的梯度▽i;步骤4.2重复步骤4.1,直到所有非共享分支完成更新;步骤4.3利用所有非共享分支顶点处的梯度,基于SGD完成共享分支的权重Wshared更新。优选的,所述共享分支网络基于深度学习网络的前向传播计算实现,采用一系列特征提取器实现从原始输入到低维特征再到高维特征的映射,获得共享分支的特征输出。本专利技术具有如下的优点和有益效果:1、本专利技术相较于现有的分开训练多个只能预测单一标签(属性)的模型,该框架能够实现单一模型同时训练多个标签(属性),方便部署。2、本专利技术在网络预测(部署)阶段,相较于传统的使用多个单标签模型逐一预测各个属性,每一个模型都需要进行一次完整的前向传播计算过程。而使用该训练框架,一方面,由于共享权值分支的存在,共享权值分支只需要进行唯一一次前向传播计算,其产生的特征图(FeatureMaps)输出才会作为各非共享分支输入;另一方面,深度学习网络的前向传播是一个特征提取和特征从低维到高维逐级抽象的过程,在深度学习网络中需要大量的特征提取器对实现特征从原始输入到低维再到高维的映射,然而这些特征提取器绝大多数存在于计算网络低维特征图过程中。共享分支包含网络绝大部分的网络初级特征提取器和非任务特异性高级特征提取器,所以共享分支的存在显著地降低了网络前向传播过程中的计算次数和计算资源消耗,也因为共享特征提取器的原因,共享了共享特征提取器所包含的网络参数,显著地减少了模型的大小。3、本专利技术基于该框架进行多标签模型的训练,对其任意一个属性而言,相当于增加了来自其他标签的大量数据集用来训练网络中的绝大部分权重(特征提取器,即共享部分),故相较于单一属性模型,可以够选择更大规模,更具泛化性的模型。另外,多样化的数据集组合能够比单一模型训练处性能更加优秀和更具鲁棒性的特征提取器,所以能够提升网络对每一个属性的预测精度,以及泛化性。4、本专利技术的框架能够接受缺失标签的数据,减少了人工对训练数据每一个属性都进行标注的要求,降低了成本。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术的网络模型结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,本实施例提出了利用缺失多标签数据实现多标签模型训练框架的实现方法,该方法主要包括以下步骤:一、进行数据预处理:整合多个单一标签数据集,形成不完整多标签数据集。1、获取多个单一标签数据集并进行整合;2、对多个单一标签数据集进行整合时,将合并后的数据集中来自某一标签数据集的样本的其他标签设置为-1,代表缺失标签值;在监督学习模式下,如果一个标签具有i个可能取值,则该标签每一个属性的具体取值按照0到i-1一一对应进行编号。当整合多个单标签数据集时,来自某一数据集I的数据可能不具有其他数据集具有的标签,因此我们将合并后的数据集中来自数据集I的样本的其他标签(属性)设置为-1,代表缺失标签值。3、整合后,生成不完整多标签数据集,不完整多标签数据集中每一个样本为B=(xdata,label1,label2,…,labeln),其中,xdata代表原始数据,labelj代表n个属性中第j个属性的具体取值。本实施例中,我们将以训练行人属性的帽子颜色,衣服颜色两个属性为例:当整合单标签帽子颜色数据集Ihat和单标签衣服颜色数据集Icloth,合并后的数据集Imerge中,来自原始帽子颜色数据集的行人样本的衣服颜色标签(属性)值被手动设置为-1,代表未知。合并后的样本具有(xdata,label1,label2,…,labeln)的组织形式,其中xdata代表原始数据,labelj代表地n个属性中第j个属性的具体取值。二、网络结构设计:网本文档来自技高网...
【技术保护点】
1.利用缺失多标签数据实现多标签模型训练框架的实现方法,其特征在于,包括以下步骤:/n步骤一、整合多个单一标签数据集,生成不完整多标签数据集;/n步骤二、从不完整多标签数据集中随机选取样本数据,将样本数据输入到共享分支网络中进行特征提取,获得共享分支的特征输出;/n步骤三、将共享分支的特征输出分别输入到对应的非共享分支网络,在每一个非共享分支处得到对应任务的输出预测值集合;/n步骤四、逐一利用每一个非共享分支处的输出预测值集合完成非共享分支网络的权重更新,在所有非共享分支网络完成更新之后,继续完成共享分支的权重更新,实现利用缺失多标签数据完成多标签模型的训练。/n
【技术特征摘要】
1.利用缺失多标签数据实现多标签模型训练框架的实现方法,其特征在于,包括以下步骤:
步骤一、整合多个单一标签数据集,生成不完整多标签数据集;
步骤二、从不完整多标签数据集中随机选取样本数据,将样本数据输入到共享分支网络中进行特征提取,获得共享分支的特征输出;
步骤三、将共享分支的特征输出分别输入到对应的非共享分支网络,在每一个非共享分支处得到对应任务的输出预测值集合;
步骤四、逐一利用每一个非共享分支处的输出预测值集合完成非共享分支网络的权重更新,在所有非共享分支网络完成更新之后,继续完成共享分支的权重更新,实现利用缺失多标签数据完成多标签模型的训练。
2.根据权利要求1所述的利用缺失多标签数据实现多标签模型训练框架的实现方法,其特征在于,所述步骤一具体包括:
步骤1.1获取多个单一标签数据集并进行整合;
步骤1.2对多个单一标签数据集进行整合时,将合并后的数据集中来自某一标签数据集的样本的其他标签设置为-1,代表缺失标签值;
步骤1.3整合后,生成不完整多标签数据集,不完整多标签数据集中每一个样本为B=(xdata,label1,label2,…,labeln),其中,xdat...
【专利技术属性】
技术研发人员:肖利,喻杨洋,王飞,
申请(专利权)人:成都睿码科技有限责任公司,杭州数峰科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。