一种基于深度学习的人形分割方法技术

技术编号:33280931 阅读:11 留言:0更新日期:2022-04-30 23:41
本发明专利技术提供了一种基于深度学习的人形分割方法,将图像输入到深度神经网络的主干部分生成图像对应的高阶特征,随后在神经网络的特征输出端衔接多条并行支路,分别预测人形在图像中外接矩形框的中心位置,宽高以及分割人形的分界线相对于人形外接矩形框中心位置在垂直方向上的坐标偏移。将上述预测到的坐标偏移和中心位置在垂直方向坐标相加即可绘制出水平分界线,将人形框分割成三块,每块分别对应人形的头部,上半身和下半身,相较于将检测和分割分开进行,并且通过人工构建的特征进行区域划分的传统人形分割方法,本项发明专利技术的方法步骤简洁,易于实现,分割的精度更高,同时在执行效率上具有巨大优势,更有利于后续对于人形各种外观属性的分析。种外观属性的分析。种外观属性的分析。

【技术实现步骤摘要】
一种基于深度学习的人形分割方法


[0001]本项专利技术涉及计算机视觉领域,尤其涉及一种基于深度学习的人形分割方法。

技术介绍

[0002]行人属性分析是计算机视觉技术中一个很有挑战性的领域,其本质是识别视频中的行人,并对行人结构化属性进行自动提取,包括性别、年龄段、方向、戴帽、戴眼镜、戴口罩、上衣颜色、裤子颜色、背包、行李等。由于对完整人形图像的分析更注重于行人全局特征的获取,从而忽略局部细节,导致对大部分由局部特征表现的属性的识别度较差。为了解决上述问题,行人属性分析引入了人形分割,将完整的人形图像划分成数个图像块,每个图像块对应人形中不同的区域,分别用于识别由该区域特征表现的行人属性。通过具有区域针对性的特征分析,有效地提高了行人属性的识别率。当下主流的人形分割方法分两种,一种基于人工设计的特征分割人形,另一种基于深度学习构建人体各区域的检测网络直接对人体的各个区域进行检测来达到分割的目的。前者在执行前需要先从原始图像中抠出人形的外接矩形区域,效率和分割精度相对较低,后者虽然效率较高,但对人形的拆分造成了不同人形的相同部位所在区域特征共性的缺失,加大了检测网络训练的难度。

技术实现思路

[0003]本专利技术的目的在于提供一种基于深度学习的人形分割方法,将人形分割和人形检测集成到同一个神经网络中,让检测完整人形和人形分割同步进行,在不增加网络训练难度的前提下提高了分割精度和执行效率的技术问题。
[0004]为解决上述技术问题,本专利技术提供如下技术方案,一种基于深度学习的人形分割方法,包括如下步骤:
[0005]步骤一:对原始图像经预处理后输入神经网络的主干部分;
[0006]步骤二:抽取神经网络主干部分生成的各种尺寸的高阶特征图构成特征金字塔,然后自顶向下融合;
[0007]步骤三:将融合后的特征输入到神经网络的预测块,由预测块尾端的四个并行的卷积层的预测结果获取人形框中心的二维坐标,置信度以及框内人形头部,上半身及上半身分界线在垂直方向上的坐标;
[0008]步骤四:使用diou

nms过滤冗余的矩形框,对于保留的人形框根据该人形框对应的两条分界线的垂直坐标制定分界线将检测到的人形框分割成三块,每一个块分别包含目标人形的头部,上半身和下半身。
[0009]作为可选的实现方式,神经网络的主干部分可以直接使用当下主流的主干网络如:vggnet,resnet,shufflenet,mobilenet,darknet,senet等。
[0010]作为可选的实现方式,神经网络可以直接使用当下主流的目标检测网络如ssd,yolo,retinanet,centernet,fcos等进行人形检测,同时在网络的检测块中增加一条用于预测人形的头部及上、下半身分界线垂直方向坐标的支路。
[0011]作为可选的实现方式,对于冗余矩形框的过滤可以使用常规的nms或者改进的softer nms替代。
[0012]与现有技术相比,本专利技术的有益效果为:
[0013]相较于先定位人形,再利用人工设计的特征实现分割的分段式方法,使用神经网络在检测到人形位置的同时定位头部及上下半身的分界线的垂直坐标可以更快更精准的实现分割;
[0014]直接检测人形的检测网络相较于分别检测人形各区域的检测网络计算复杂度更低,更易构建和训练。
附图说明
[0015]图1是神经网络的宏观结构图;
[0016]图2是预测块的一种结构图;
[0017]图3是本专利技术方法的流程图。
[0018]具体实现形式
[0019]下面结合附图对本项专利技术的一种实现方式作进一步说明
[0020]本专利技术提供了一种基于深度学习的人形分割方法。该方法通过神经网络实现了对人形检测及分割的并行处理,分割精度较高,效率提升明显,神经网络的宏观结构图见图1。完整流程图见图3,具体实现的步骤如下:
[0021]1)将原始图像通过双线性插值缩放至640x480,并通过线性缩放将像素值从0~255区间内的整数收缩至0~1区间内的浮点数。
[0022]2)这里使用mobilenet v2网络作为主干网络,去除最后的卷积层和池化层,将网络精简化。
[0023]3)将预处理后的图像输入简化后的mobilenet v2网络,并将第3、5、7个瓶颈模块的输出的尺寸为80x60,40x20,20x10的特征图用于构建构建特征金字塔。
[0024]4)自顶向下融合特征,上层特征通过上采样操作后与下一层特征做拼接融合,将最终融合得到的尺寸为80x60的特征图输入到预测块用于后续的预测。
[0025]5)预测块内包含一条主干通路和一条残差旁路,主干通路由3个串联的1x1卷积层组成,残差旁路是一个核大小为1x1卷积层,结构图见图2。将融合的特征通过主干道路和残差旁路的输出相加后分别经四个并行的1x1卷积层预测特征图上每个点作为人形框中心的置信度,与实际中心的偏移量,宽高以及上下两条分界线在垂直方向上的坐标相对于当前点的偏移量。
[0026]6)根据上述预测结果及特征图上每个点的坐标得到所有预测矩形框的左上和右下角点坐标以及两条分界线的位置。随后通过diou

nms过滤掉无效的矩形框,对于检测到的每个人形仅保留一个矩形框。diou

nms的数学表达式如下:
[0027][0028][0029][0030]上式中,s
i
是矩形框的置信度,B
max
,B
i
分别表示置信度最大的矩形框和其他的矩形框,λ表示nms的置信度。w
x
,h
x
,w
y
,h
y
,w
xy
,h
xy
分别表示矩形框x的宽高,矩形框y的宽高以及x与y重合部分的宽高。d
xy
,c
xy
分别表示x和y中心点的欧式距离和外接矩形对角线的长度,μ是权重因子。diou

nms通过计算置信度最大的矩形框和其他矩形框之间的diou调整其他的矩形框的置信度。
[0031]7)对于最后保留下来的人形框i,通过预测中心的坐标和相应的分界线偏移量可得两条分界线
[0032][0033][0034]根据当前特征图和原始图像的缩放比例,将检测到的矩形框及对应分界线的坐标映射至原始图像中,完成人形的检测及分割。
[0035]上述虽然对本专利技术的具体实施方式进行了描述,但并非对本专利技术保护范围的限制,在本专利技术的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本专利技术的保护范围以内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的人形分割方法,其特征在于,包括有如下步骤:步骤一:对原始图像经预处理后输入神经网络的主干部分;步骤二:抽取神经网络主干部分生成的各种尺寸的高阶特征图构成特征金字塔,然后自顶向下融合;步骤三:将融合后的特征输入到神经网络的预测块,由预测块尾端的四个并行的卷积层的预测结果获取人形框中心的二维坐标,置信度以及框内人形头部,上半身及上半身分界线在垂直方向上的坐标;步骤四:使用diou

nms过滤冗余的矩形框,对于保留的人形框根据该人形框对应的两条分界线的垂直坐标制定分界线将检测到的人形框分割成三块,每一个块分别包含目标人形的头部,上半身和下半身。2.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:王伟栋沈修平
申请(专利权)人:上海悠络客电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1