【技术实现步骤摘要】
一种适用于样本分布不均衡的多标签多分类方法
本专利技术涉及深度学习的多标签多分类领域,尤其是涉及一种适用于样本分布不均衡的多标签多分类方法。
技术介绍
利用深度学习做多标签多分类问题时一般会遇到样本数量不均衡的问题,比以flickr30K样本集做图像标签为例,该样本集共有30000张图片,每张图片有5个标签,所有的标签合并在一起后,共有30W条摘要,下表为包含狗、猫、海豚和大象的标签的样本数量:类别狗猫海豚大象数量106193084094显然相对于包含狗的样本,其它的样本数量少到可以忽略不计。而目前主流的基于深度学习的多分类方法中,最后一层的激活函数为sigmoid函数,该函数的值域为(0,1),其结果往往被用于作为某个标签的概率。模型的期望损失函数为:其中,Ni为包含标签i的样本数量,Nj为不包含标签j的样本数量,Pi为模型预测标签i的平均概率,Pj ...
【技术保护点】
1.一种适用于样本分布不均衡的多标签多分类方法,其特征在于,包括以下步骤:/nS1:构建并训练一个基于神经网络的多标签多分类模型,并设定比较对象;/nS2:利用训练完成的多标签多分类模型和训练样本,计算各个标签上,所有训练样本对应比较对象的平均值,作为比较平均值;/nS3:将待检测图片输入多标签多分类模型,得到在各标签上,该图片对应比较对象的值,作为比较值;/nS4:选取该图片比较值与比较平均值最接近的前N个标签,作为待检测图片的标签,完成对图片的多标签多分类。/n
【技术特征摘要】
1.一种适用于样本分布不均衡的多标签多分类方法,其特征在于,包括以下步骤:
S1:构建并训练一个基于神经网络的多标签多分类模型,并设定比较对象;
S2:利用训练完成的多标签多分类模型和训练样本,计算各个标签上,所有训练样本对应比较对象的平均值,作为比较平均值;
S3:将待检测图片输入多标签多分类模型,得到在各标签上,该图片对应比较对象的值,作为比较值;
S4:选取该图片比较值与比较平均值最接近的前N个标签,作为待检测图片的标签,完成对图片的多标签多分类。
2.根据权利要求1所述的一种适用于样本分布不均衡的多标签多分类方法,其特征在于,所述的比较对象为隐藏层输出logits。
3.根据权利要求2所述的一种适用于样本分布不均衡的多标签多分类方法,其特征在于,所述的多标签多分类模型首先对输入的图像进行特征提取,得到特征向量V,再通过线性变换得到隐藏层输出logits。
4.根据权利要求3所述的一种适用于样本分布不均衡的多标签多分类方法,其特征在于,当比较对象为隐藏层输出logits时,所述的步骤S2-步骤S4具体包括:
A1:利用训练好的多标签多分类模型,计算所有训练样本上各标签对应的隐藏层...
【专利技术属性】
技术研发人员:马祥祥,
申请(专利权)人:上海爱数信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。