基于电梯图片数据的多标签多属性分类模型建立方法技术

技术编号:30827034 阅读:21 留言:0更新日期:2021-11-18 12:28
本发明专利技术涉及一种基于电梯图片数据的多标签多属性分类模型建立方法,包括以下步骤:a、采集电梯轿厢内的图片并上传至云端;b、对所述图片进行预处理,分割出对象;c、利用分割出的对象训练所述分类模型的主干网络;d、基于所述主干网络完成所述分类模型的分支网络的训练。本发明专利技术可以降低标注的工作量,并能在保证模型准确率的情况下降低参数量。准确率的情况下降低参数量。准确率的情况下降低参数量。

【技术实现步骤摘要】
基于电梯图片数据的多标签多属性分类模型建立方法


[0001]本专利技术涉及一种基于电梯图片数据的多标签多属性分类模型建立方法。

技术介绍

[0002]深度卷积神经网络已成为大规模图像分类的主流结构,卷积神经网络在单一标签的图片分类中已经证明了可以达到很好的效果,对于多标签的分类,往往会采取迁移学习的方式,即对所有的标签用共同的模型提取特征,然后基于这些共同提取的特征,每个标签训练自身的分支结构,整体网络结构类似树状。但是树状网络结构是为静态数据集设计的,静态数据即数据集标签数量不会发生改变,如果数据集标签数量增加,不仅需要为新的标签采集数据,还需要对原来的数据集全部重新标注,以判断原来的图片是否属于新的标签。如果不断有新的标签加入,标注的工作量将是巨大的,从而耗费大量的时间成本。同时,样本的不平衡也是机器学习中的一个重要问题,模型倾向于将样本识别为数量更多的那一类,导致预测效果变差。因为这些问题的存在,使得在标签动态变化的数据上应用迁移学习成本巨大。

技术实现思路

[0003]本专利技术的目的在于提供一种基于电梯图片数据的多标签多属性分类模型建立方法。
[0004]为实现上述专利技术目的,本专利技术提供一种基于电梯图片数据的多标签多属性分类模型建立方法,包括以下步骤:
[0005]a、采集电梯轿厢内的图片并上传至云端;
[0006]b、对所述图片进行预处理,分割出对象;
[0007]c、利用分割出的对象训练所述分类模型的主干网络;
[0008]d、基于所述主干网络完成所述分类模型的分支网络的训练。
[0009]根据本专利技术的一个方面,在所述步骤(a)中,当电梯开始运行、开关门时采集所述图片。
[0010]根据本专利技术的一个方面,在所述步骤(b)中,采用YOLACT的实例分隔方法将对象从所述图片中单独分割出来。
[0011]根据本专利技术的一个方面,所述步骤(b)中分割出的对象为人体。
[0012]根据本专利技术的一个方面,在所述步骤(c)中,所述分类模型采用嫁接网络,所用标签为多个二分类,将训练数据集分为多个子数据集,每个子数据集上具有对应的标签,且具有一个独有的取值为0,1,
……
T的索引;
[0013]所述分类模型的主干网络采用Inception V3模型,每个子数据集都用Inception V3作为共有的主干网络,同时每个子数据集对应不同的全连接层;
[0014]每一轮训练时,随机选取一个子数据集的图片送入Inception V3模型中提取特征,然后将提取的特征送入该数据集对应的全连接层预测分类,训练的损失函数Loss为:
[0015][0016]其中,t表示所述子数据集的索引;T为所有属性类别;ε
t
∈{0,1}表示输入数据是否属于该属性数据的子集;L
t
表示属性t的损失;w0表示Inception V3主干网络的参数,w
t
表示子数据集对应全连接层的参数,G
w0,wt
表示特定属性的网络预测结果,y
t
表示子数据集的标签;
[0017]训练完成后,只保留Inception主干网络的训练结果,将全连接层的训练结果舍弃。
[0018]根据本专利技术的一个方面,Inception V3网络结构包含11个模块,每个模块都包括卷积层、激活层。
[0019]根据本专利技术的一个方面,在所述步骤(d)中,在训练所述分支网络时,固定主干网络的前八个模块,所有的子数据集分支网络共用前八个模块以提取低层共有的特征,所述前八个模块的输出作为每个分支网络的输入。
[0020]根据本专利技术的一个方面,每个子数据集对应的分支网络采用神经结构搜索寻找最优网络结构来训练;
[0021]所述分支网络的神经网络结构搜索的搜索空间包括每一层神经网络的结构从3*3卷积核、5*5卷积核、平均池化层、全局池化层和激活层中做选择以及对这些不同层之间的连接关系做选择。
[0022]根据本专利技术的一个方面,采用长短期记忆网络作为控制网络来构建和训练神经网络的采样器和训练器,训练长短期记忆网络控制器的参数和共用参数的子模型,且每一轮交替训练;
[0023]根据在测试集的准确率,从搜索空间中寻找到最佳的网络结构,并根据最佳的网络结构构建和训练自身的分支网络,最终构建完成分支网络的结构。
[0024]根据本专利技术的一个方案,通过使用嫁接网络这种网络结构来检测电梯图片中的任务属性,从而可以降低标注的工作量,以解决标签数量动态变化时数据量标注成本太高的问题。
[0025]根据本专利技术的一个方案,采用高效的神经结构搜索(ENAS)寻找最优网络结构来训练分支结构,ENAS在保证模型准确率的情况下,能够大大降低参数量,从而减少训练成本。
附图说明
[0026]图1示意性表示本专利技术的一种实施方式的用于人体属性检测的嫁接网络的网络结构图;
[0027]图2示意性表示本专利技术的一种实施方式的采用ENAS搜索出的最优分支结构图;
[0028]图3示意性表示本专利技术的一种实施方式的嫁接网络推理图片的流程图;
[0029]图4示意性表示本专利技术的一种实施方式的嫁接网络在各个分支的ROC曲线图。
具体实施方式
[0030]为了更清楚地说明本专利技术实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些
实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]下面结合附图和具体实施方式对本专利技术作详细地描述,实施方式不能在此一一赘述,但本专利技术的实施方式并不因此限定于以下实施方式。
[0032]本专利技术基于电梯图片数据的多标签多属性分类模型建立方法,首先,采集电梯轿厢内的图片并上传至云端,对图片进行预处理,分割出对象,利用分割出的对象训练分类模型的主干网络,基于主干网络完成分类模型的分支网络的训练。本专利技术中,当电梯开始运行、开关门时(即电梯状态发生改变时)采集摄像头拍摄的图片。
[0033]本专利技术的分类模型主要用于识别电梯乘客(人体)属性,因此,图片中除了人体以外的其他部分是计算机视觉模型不需要用到的,而且若保留这些无用部分有可能给模型带来干扰。因此,本专利技术设置了预处理步骤,从而在检测人体属性的模型中采用YOLACT的实例分隔方法将人体(即上述对象)单独分割出来。由此,预处理的步骤也可以理解为特征提取,即将电梯中的人体提取出来。这样,预处理所分割出的人体即可用来训练分类模型(即人体属性检测模型)来检测电梯中乘客的相关属性,比如年龄段、性别、穿衣风格等。
[0034]参见图1,根据上述可知,本专利技术的分类模型主要用于人体属性检测,其采用嫁接网络,针对于电梯人体属性而言,电梯人体属性的标签是多个二分类,包括是否是小孩、是否是老年人、男女性别和是否是运动风格的穿衣。如此,将训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电梯图片数据的多标签多属性分类模型建立方法,包括以下步骤:a、采集电梯轿厢内的图片并上传至云端;b、对所述图片进行预处理,分割出对象;c、利用分割出的对象训练所述分类模型的主干网络;d、基于所述主干网络完成所述分类模型的分支网络的训练。2.根据权利要求1所述的方法,其特征在于,在所述步骤(a)中,当电梯开始运行、开关门时采集所述图片。3.根据权利要求1所述的方法,其特征在于,在所述步骤(b)中,采用YOLACT的实例分隔方法将对象从所述图片中单独分割出来。4.根据权利要求1所述的方法,其特征在于,所述步骤(b)中分割出的对象为人体。5.根据权利要求1所述的方法,其特征在于,在所述步骤(c)中,所述分类模型采用嫁接网络,所用标签为多个二分类,将训练数据集分为多个子数据集,每个子数据集上具有对应的标签,且具有一个独有的取值为0,1,
……
T的索引;所述分类模型的主干网络采用Inception V3模型,每个子数据集都用Inception V3作为共有的主干网络,同时每个子数据集对应不同的全连接层;每一轮训练时,随机选取一个子数据集的图片送入Inception V3模型中提取特征,然后将提取的特征送入该数据集对应的全连接层预测分类,训练的损失函数Loss为:其中,t表示所述子数据集的索引;T为所有属性类别;ε
t
∈{0,1}表示输入数据是否属于该属性数据的子集;L
t
...

【专利技术属性】
技术研发人员:易文海贾春华吴宇吴磊磊蔡巍伟
申请(专利权)人:浙江新再灵科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1