基于深度神经网络的行人步态分割方法技术

技术编号:23984876 阅读:22 留言:0更新日期:2020-04-29 13:02
本发明专利技术针对行人步态分割时对双腿间的“O型”形状难以分割以及腿型分割不够精细的问题,提出一种基于深度神经网络的行人步态分割方法。本发明专利技术通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割;利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野,得到更多信息的特征传入到下个阶段,最后得到的mask再输入至由边缘检测算子组成的边缘检测器中,很好地解决了行人步态中步态边缘不拟合的问题,从而得到更加精确的行人步态边缘,提高了腿部分割的精细度。

Pedestrian gait segmentation based on depth neural network

【技术实现步骤摘要】
基于深度神经网络的行人步态分割方法
本专利技术涉及计算机视觉中图像处理和模式识别
,具体涉及一种基于深度神经网络的行人步态分割方法。
技术介绍
近年来,视频监控广泛地运用在交通、军事、城市建设、安全等领域,其重要性越来越不可忽视。行人的步态分割是视频监控技术中不可或缺的一部分。从行人步态的图像视频中提取行人区域是行人步态识别的一个重要环节,也是最苛刻的计算机视觉任务之一。目前,针对行人步态分割的研究较少,而对实例分割的研究相对更加成熟。实例分割是一种基本的计算机视觉技术,是从图像处理到图像分析的关键步骤,是进行图像分析的第一步工作,也是最苛刻的计算机视觉任务之一,它涉及了目标定位和分割对象实例。近年来大量的实例分割论文的发表,提供了大量的实例分割的方法,这为行人步态分割提供了良好的技术基础。
技术实现思路
本专利技术的目的是提供一种基于深度神经网络的行人步态分割方法。为了达到上述目的,本专利技术通过以下技术方案来实现:基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:S1)预测行人的步态边界在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频;S2)图像预处理和制作标签将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景;S3)构建步态分割深度卷积神经网络S3-1)采用基础网络进行特征提取采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法;S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框regionproposal映射产生固定大小的featuremap,通过采用双线性插值法获得更加准确的行人候选框;S3-4)将步骤S3-3)中14*14*256大小的featuremap经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask;S3-5)将步骤S3-4)得到的28*28*1大小的P_mask进行kernelsize为2、stride为2的maxpoolinglayer,使得预测的mask具有与步骤S3-3)的输出相同的空间尺寸,再和步骤S3-3)的输出进行组合,得到14*14*257大小的特征图;该特征图经过4个卷积层,这4个卷积层的核大小和滤波器个数分别设置为3和256;再添加3个全卷积层,前面两个全卷积设置为1024,后一个全卷积设置为类别数量,数量为1,即行人一类;该输出的值为mask的评分,设置阈值为0.5,采用阈值大于0.5的mask,定义为GT_mask;S4)使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数,将真实的概率表达为,预测概率表达为,其中,y表示样本属于行人的概率,1-y表示样本属于背景的概率,表示预测行人的概率,表示预测背景的概率,通过交叉熵来测量p和q之间的相似度,公式如下:(1);S5)使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息;S6)将步骤S3)得到的P_mask和GT_mask输入至边缘检测器,该边缘检测器由3*3*1大小的一个边缘检测算子构成,两个mask会和边缘检测算子进行卷积得到两个mask的边缘,对于P_mask输入后得到的边缘结果将其定义为,对于GT_mask输入后得到的边缘结果将其定义为;S7)将步骤S6)得到的和构造损失函数loss,公式如下:(2);本专利技术与现有技术相比,具有以下优点:本专利技术针对行人步态存在O型腿和难以勾勒腿型的情况,提出一种基于深度神经网络的行人步态分割方法。本专利技术通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割;利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野,得到更多信息的特征传入到下个阶段,最后得到的mask再输入至由边缘检测算子组成的边缘检测器中,很好地解决了行人步态中步态边缘不拟合的问题,从而得到更加精确的行人步态边缘。具体实施方式基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:S1)预测行人的步态边界在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频。S2)图像预处理和制作标签将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景。S3)构建步态分割深度卷积神经网络S3-1)采用基础网络进行特征提取采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;这扩大了网络的感受野,有利于后续深层网络的特征提取;其中,resnet,即deepresidualnetwork,resnet50网络为50层残差卷积网络;S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,FPN是一种高效的CNN特征提取方法,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法,从而生成表达力更强的featuremap以供下一阶段的计算机视觉任务;S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框regionproposal映射产生固定大小的featuremap,通过采用双线性插值法获得更加准确的行人候选框;ROIAlign本文档来自技高网...

【技术保护点】
1.基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:/nS1)预测行人的步态边界/n在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;/n对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;/n对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频;/nS2)图像预处理和制作标签/n将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;/n制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景;/nS3)构建步态分割深度卷积神经网络/nS3-1)采用基础网络进行特征提取/n采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;/nS3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法;/nS3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框region proposal映射产生固定大小的feature map,通过采用双线性插值法获得更加准确的行人候选框;/nS3-4)将步骤S3-3)中14*14*256大小的feature map经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask;/nS3-5)将步骤S3-4)得到的28*28*1大小的P_mask进行kernel size为2、stride为2的max pooling layer,使得预测的mask具有与步骤S3-3)的输出相同的空间尺寸,再和步骤S3-3)的输出进行组合,得到14*14*257大小的特征图;/n该特征图经过4个卷积层,这4个卷积层的核大小和滤波器个数分别设置为3和256;再添加3个全卷积层,前面两个全卷积设置为1024,后一个全卷积设置为类别数量,数量为1,即行人一类;该输出的值为mask的评分,设置阈值为0.5,采用阈值大于0.5的mask,定义为GT_mask;/nS4)使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数,将真实的概 率表达为p∈{y,1−y},,预测概率表达为q∈{...

【技术特征摘要】
1.基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:
S1)预测行人的步态边界
在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;
对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;
对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频;
S2)图像预处理和制作标签
将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;
制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景;
S3)构建步态分割深度卷积神经网络
S3-1)采用基础网络进行特征提取
采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;
S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法;
S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框regionproposal映射产生固定大小的featuremap,通过采用双线性插值法获得更加准确的行人候选框;
S3-4)将步骤S3-3)中14*14*256大小的featuremap经过5个卷积后再经过反卷积变换为28*28...

【专利技术属性】
技术研发人员:王慧燕雷蕾
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1