一种行人多属性分类方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:36192679 阅读:14 留言:0更新日期:2022-12-31 21:11
本说明书公开了一种行人多属性分类方法,包括:获取行人图像;将所述行人图像输入到行人多属性分类模型,输出得到行人的N个属性的特征,N为大于或等于1的整数;其中,所述行人多属性分类模型包括第一CBL模块、池化模块、残差模块os block、第二CBL模块、N个先验注意力模块、N个第一全局池化模块、第二全局池化模块、N个相加模块和N个全连接层;该行人多属性分类方法优化了行人多属性分类速度和准确度。方法优化了行人多属性分类速度和准确度。方法优化了行人多属性分类速度和准确度。

【技术实现步骤摘要】
一种行人多属性分类方法、装置、电子设备和可读存储介质


[0001]本申请涉及计算机视觉目标检测领域,具体涉及一种行人多属性分类方法,行人多属性分类装置,一种电子设备和可读存储介质。

技术介绍

[0002]图像分类在机器人巡航、自动驾驶、工业监控和智慧安防等诸多领域,均有广泛应用,可以为公司减少一定的人力成本。从2012年,Hinton课题组通过构建CNN神经网络刷新ImageNet记录夺冠以来,基于深度学习的图像分类进入了快速干道,得到了很快的发展。目前基于深度学习的图像分类技术研究热点主要从以下方面展开:
[0003](1)粗粒度的图像分类,例如猫狗识别和写数字分类等;
[0004](2)中粒度的图像多属性识别,例如行人的性别、年龄,车辆的颜色、种类等;
[0005](3)细粒度的人脸识别分类。
[0006]图像多属性任务作为图像分类的一部分,例如行人多属性、车辆多属性、人脸多属性在工业界,在计算机视觉领域越来越得到广泛应用。而注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。在计算机视觉中,常常采用通道注意力、空间注意力机制对神经网络的中间层进行操作。空间、通道注意力比较依赖整个神经网络的反向传播参数更新,不可解释性较强。r/>
技术实现思路

[0007]针对上述问题,本申请提出一种行人多属性分类方法,行人多属性分类装置,一种电子设备和可读存储介质,下面具体说明。
[0008]根据第一方面,一种实施例中提供一种行人多属性分类方法,包括:
[0009]获取行人图像;
[0010]将所述行人图像输入到行人多属性分类模型,输出得到行人的N个属性的特征,N为大于或等于1的整数;
[0011]其中,所述行人多属性分类模型包括第一CBL模块、池化模块、残差模块os block、第二CBL模块、N个先验注意力模块、N个第一全局池化模块、第二全局池化模块、N个相加模块和N个全连接层;所述第一CBL模块的输入为所述行人图像,所述第一CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块;所述第一CBL模块的输出为所述池化模块的输入,所述池化模块用于执行池化操作,所述池化模块的输出作为所述残差模块os block的输入;所述残差模块os block包括多个执行卷积操作的卷积核,所述残差模块os block的输出作为所述第二CBL模块的输入;所述第二CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块,所述第二CBL模块的输出分别作为每个先验注
意力模块的输入,所述第二CBL模块的输出还作为所述第二全局池化模块的输入;所述N个先验注意力模块根据行人的先验知识所设置,所述行人的先验知识包括所述属性的位置,所述N个先验注意力模块与所述N个属性对应,每个先验注意力模块用于注意其中一个属性;所述N个先验注意力模块分别与所述N个第一全局池化模块一一对应,每个先验注意力模块的输出作为对应第一全局池化模块的输入;所述N个第一全局池化模块分别与所述N个相加模块一一对应,每个第一全局池化模块的输出作为对应相加模块的输入;所述第二全局池化模块的输出分别作为每个相加模块的输入;所述相加模块用于将对应第一全局池化模块的输出与所述第二全局池化模块的输出进行融合;所述N个相加模块分别与所述N个全连接层一一对应,每个相加模块的输出作为对应全连接层的输入,每个全连接层用于输出一个所述属性的特征。
[0012]一实施例中,所述N至少大于或等于2;优选地,所述N等于4。
[0013]一实施例中,所述N个属性包括头发、上衣、裤子和鞋子。
[0014]一实施例中,所述N个先验注意力模块的输出分别为行人图像中头发所在区域的图像、上衣所在区域的图像,裤子所在区域的图像以及鞋子所在区域的图像。
[0015]一实施例中,所述属性的位置包括:头发所在区域的图像为行人图像上部八分之一的图像,所述上衣所在区域的图像为行人图像上半部分的图像,所述裤子所在区域的图像为行人图像下半部分的图像,所述鞋子所在区域的图像为行人图像下部八分之一的图像。
[0016]一实施例中,所述N个属性的特征包括头发的颜色、上衣的类型、裤子的类型和鞋子的颜色。
[0017]一实施例中,所述第一全局池化模块为全局平均池化模块或全局最大池化模块;所述第二全局池化模块为全局平均池化模块或全局最大池化模块。
[0018]根据第二方面,一种实施例中提供一种行人多属性分类装置,包括:
[0019]获取模块,用于获取行人图像;
[0020]输出模块,用于将所述行人图像输入到行人多属性分类模型,输出得到行人的N个属性的特征,N为大于或等于1的整数;
[0021]其中,所述行人多属性分类模型包括第一CBL模块、池化模块、残差模块os block、第二CBL模块、N个先验注意力模块、N个第一全局池化模块、第二全局池化模块、N个相加模块和N个全连接层;所述第一CBL模块的输入为所述行人图像,所述第一CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块;所述第一CBL模块的输出为所述池化模块的输入,所述池化模块用于执行池化操作,所述池化模块的输出作为所述残差模块os block的输入;所述残差模块os block包括多个执行卷积操作的卷积核,所述残差模块os block的输出作为所述第二CBL模块的输入;所述第二CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块,所述第二CBL模块的输出分别作为每个先验注意力模块的输入,所述第二CBL模块的输出还作为所述第二全局池化模块的输入;所述N个先验注意力模块根据行人的先验知识所设置,所述行人的先验知识包括所述属性的位置,所述N个先验注意力模块与所述N个属性对应,每个先验注意力模块用于注意其中一个属性;所述N个先验注意力模块分别与所述N个第一全局池化模块一一对应,每个先验注意力模块的输出作为对应第一全局池化模块的输入;所述N个第一全局池化模块分别与所述N个
相加模块一一对应,每个第一全局池化模块的输出作为对应相加模块的输入;所述第二全局池化模块的输出分别作为每个相加模块的输入;所述相加模块用于将对应第一全局池化模块的输出与所述第二全局池化模块的输出进行融合;所述N个相加模块分别与所述N个全连接层一一对应,每个相加模块的输出作为对应全连接层的输入,每个全连接层用于输出一个所述属性的特征。
[0022]根据第三方面,一种实施例中提供电子设备,其特征在于,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如本文任一实施例所述的方法。
[0023]根据第四方面,一种实施例中提供一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种行人多属性分类方法,其特征在于,包括:获取行人图像;将所述行人图像输入到行人多属性分类模型,输出得到行人的N个属性的特征,N为大于或等于1的整数;其中,所述行人多属性分类模型包括第一CBL模块、池化模块、残差模块os block、第二CBL模块、N个先验注意力模块、N个第一全局池化模块、第二全局池化模块、N个相加模块和N个全连接层;所述第一CBL模块的输入为所述行人图像,所述第一CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块;所述第一CBL模块的输出为所述池化模块的输入,所述池化模块用于执行池化操作,所述池化模块的输出作为所述残差模块os block的输入;所述残差模块os block包括多个执行卷积操作的卷积核,所述残差模块os block的输出作为所述第二CBL模块的输入;所述第二CBL模块指的是依次执行卷积、批归一化处理和激活操作的运算过程的模块,所述第二CBL模块的输出分别作为每个先验注意力模块的输入,所述第二CBL模块的输出还作为所述第二全局池化模块的输入;所述N个先验注意力模块根据行人的先验知识所设置,所述行人的先验知识包括所述属性的位置,所述N个先验注意力模块与所述N个属性对应,每个先验注意力模块用于注意其中一个属性;所述N个先验注意力模块分别与所述N个第一全局池化模块一一对应,每个先验注意力模块的输出作为对应第一全局池化模块的输入;所述N个第一全局池化模块分别与所述N个相加模块一一对应,每个第一全局池化模块的输出作为对应相加模块的输入;所述第二全局池化模块的输出分别作为每个相加模块的输入;所述相加模块用于将对应第一全局池化模块的输出与所述第二全局池化模块的输出进行融合;所述N个相加模块分别与所述N个全连接层一一对应,每个相加模块的输出作为对应全连接层的输入,每个全连接层用于输出一个所述属性的特征。2.如权利要求1所述的行人多属性分类方法,其特征在于,所述N至少大于或等于2;优选地,所述N等于4。3.如权利要求2所述的行人多属性分类方法,其特征在于,所述N个属性包括头发、上衣、裤子和鞋子。4.如权利要求3所述的行人多属性分类方法,其特征在于,所述N个先验注意力模块的输出分别为行人图像中头发所在区域的图像、上衣所在区域的图像,裤子所在区域的图像以及鞋子所在区域的图像。5.如权利要求3所述的行人多属性分类方法,其特征在于,所述属性的位置包括:头发所在区域的图像为行人图像上部八分之一的图像,所述上衣所在区域的图像为行人图像上半部分的图像,所述裤子所在区域的图像为行人图像下半部分的图像,所述鞋子所在区域的图像为行人图像下部八分之一的图像...

【专利技术属性】
技术研发人员:刘凯徐明李杉杉丁一臣郭蓉
申请(专利权)人:深圳力维智联技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1