一种基于YOLOv3-SPP的人体行为识别方法及系统技术方案

技术编号:30425920 阅读:53 留言:0更新日期:2021-10-24 16:59
一种基于YOLOv3

【技术实现步骤摘要】
一种基于YOLOv3

SPP的人体行为识别方法及系统


[0001]本专利技术属于深度学习中的行为检测领域,具体涉及一种基于YOLOv3

SPP的人体行为识别方法及系统。

技术介绍

[0002]传统视频分析技术由于采用人工选择特征,存在准确率低、浅层学习无法解析大数据等问题,而深度学习可以很好地克服这些问题,使视频分析过程中识别准确率更高、鲁棒性更好、识别种类更丰富。
[0003]现在大多数视频分析采用的是帧与帧之间比对实现异常行为分类,本设计是将人体目标的提取放到神经网络中,直接实现端到端的异常行为分类,从而实现对具体应用场景的异常行为检测。
[0004]在智能视频分析通常采用时域差分法和光流法提取图像的运动目标,时域差分运动检测方法对于动态环境具有较强的的自适应性,但不能完全提取出所有相关的特征像素点,识别精度较相对较低且容易产生空洞现象。而大多数的光流法计算相当的复杂,且抗噪声性能差,如果没有特别的硬件装置则不能被应用于全帧的视频流实时处理使得操作成本高。

技术实现思路

[0005]本专利技术的目的是提供一种基于YOLOv3

SPP的人体行为识别方法及系统,以解决上述问题。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种基于YOLOv3

SPP的人体行为识别方法,包括以下步骤:
[0008]步骤1,在YOLOv3网络中引入空间金字塔池化SPP模块,构建基于YOLOv3

SPP目标检测模型;
[0009]步骤2,对Stanford40(斯坦福人类行为数据集)预处理:从Stanford40(斯坦福人类行为数据集)标注文件中面部动作、通过物体操纵进行面部动作、全身动作、与物体互动的身体动作以及与人体互动的身体动作这五类人体行为目标的标注信息,并将这五类标注信息转换为Darknet(YOLO的特征提取网络)框架下支持的格式;
[0010]步骤3,依据Stanford40(斯坦福人类行为数据集)人类活动数据集中训练集图像分辨率,利用kmean算法对步骤2中转换为Darknet(YOLO的特征提取网络)框架下支持的格式的标注信息框重新聚类,得到新的初始Anchor Box(锚框),并按照Alexey Bochkovskiy(YOLO系列作者)设定的Anchor Box(锚框)分配规则,为YOLOv3

SPP目标检测模型中的每个检测尺度分配相应个数的Anchor Box(锚框);
[0011]步骤4,将Stanford40(斯坦福人类行为数据集)中的训练集和验证集分别输入到YOLOv3

SPP目标检测模型中进行检测模型的训练与评估;
[0012]步骤5,利用步骤4训练后的YOLOv3

SPP目标检测模型对测试视频进行检测,在视
频的每一帧进行动作的识别,最后将检测结果重新拼接成视频。
[0013]进一步的,步骤1具体包括如下步骤:
[0014]步骤1.1,其中SSP模块由Kernel Size(卷积核)分别为1
×
1,5
×
5,9
×
9,13
×
13的四个并行池化层组成,将SSP模块集成在YOLOv3网络中第一个检测尺度的第5和第6个卷积之间;
[0015]步骤1.2,完成构建基于YOLOv3

SPP目标检测模型,实现不同尺度特征的融合。
[0016]进一步的,步骤2具体包括如下步骤:
[0017]步骤2.1,从Stanford40(斯坦福人类行为数据集)标注文件中提取面部动作,通过物体操纵进行面部动作,全身动作,与物体互动的身体动作,与人体互动的身体动作这五类人体行为目标的标注信息
[0018]步骤2.2,将步骤2.1中的五类行为标注信息写入以图片命名的XML文件中;
[0019]步骤2.3,将Stanford40(斯坦福人类行为数据集)数据集文件目录结构转化为形如PASCAL VOC数据集文件目录结构。
[0020]进一步的,步骤2.2具体包括如下步骤:
[0021]步骤2.21,将步骤2.1中的五类行为标注信息写入以图片命名的XML文件中;
[0022]步骤2.22设计代码按照如下公式:
[0023]X
center
=(box
xmin
+box
xmax
)/(2
×
picture—width)
[0024]y
center
=(box
ymin
+box
ymax
)/(2
×
picture_height)
[0025]width=(box
xmax

box
xmin
)/picture_width
[0026]hight=(box
ymax

box
ymin
)/picture_height
[0027]其中:X
center
为锚框x轴中心点坐标,y
center
为锚框的y轴中心点坐标;box
xmin
为锚框x轴坐标最小值;box
max
为锚框x轴坐标最大值;picture_width为原始图像的宽度;picture_height为原始图像的高度;width为锚框宽度;hight为锚框高度
[0028]将标注信息转换成Darknet(YOLO的特征提取网络)框架下的格式;
[0029]步骤2.23,检查转换后每个图片的TXT标注框格式需为:
[0030]<object

class><x_center><y_center><width><height>。
[0031]其中:object

class为类别,x_center为锚框x轴中心点坐标,y_center为锚框的y轴中心点坐标;width为锚框宽度;hight为锚框高度
[0032]进一步的,步骤3具体包括如下步骤:
[0033]步骤3.1,观察Stanford40(斯坦福人类行为数据集)中训练集标注框坐标信息分布,随机选取选择k个簇中心(ω
i
,h
i
),i∈{1,2
……
,k},其中,w
i
和h
i
为框的宽和高;
[0034]步骤3.2,分别计算每个标注框和每个簇中心的距离d,计算公式如下:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于YOLOv3

SPP的人体行为识别方法,其特征在于,包括以下步骤:步骤1,在YOLOv3网络中引入空间金字塔池化SPP模块,构建基于YOLOv3

SPP目标检测模型;步骤2,对斯坦福人类行为数据集Stanford40预处理:从Stanford40标注文件中面部动作、通过物体操纵进行面部动作、全身动作、与物体互动的身体动作以及与人体互动的身体动作这五类人体行为目标的标注信息,并将这五类标注信息转换为YOLO的特征提取网络Darknet框架下支持的格式;步骤3,依据Stanford40中训练集图像分辨率,利用kmean聚类算法对步骤2中转换为Darknet框架下支持的格式的标注信息框重新聚类,得到新的初始Anchor Box,并按照设定的锚框Anchor Box分配规则,为YOLOv3

SPP目标检测模型中的每个检测尺度分配相应个数的锚框Anchor Box;步骤4,将Stanford40中的训练集和验证集分别输入到YOLOv3

SPP目标检测模型中进行检测模型的训练与评估;步骤5,利用步骤4训练后的YOLOv3

SPP目标检测模型对测试视频进行检测,在视频的每一帧进行动作的识别,最后将检测结果重新拼接成视频。2.根据权利要求1所述的一种基于YOLOv3

SPP的人体行为识别方法,其特征在于,步骤1具体包括如下步骤:步骤1.1,其中SSP模块由卷积核Kernel Size分别为1
×
1,5
×
5,9
×
9,13
×
13的四个并行池化层组成,将SSP模块集成在YOLOv3网络中第一个检测尺度的第5和第6个卷积之间;步骤1.2,完成构建基于YOLOv3

SPP目标检测模型,实现不同尺度特征的融合。3.根据权利要求1所述的一种基于YOLOv3

SPP的人体行为识别方法,其特征在于,步骤2具体包括如下步骤:步骤2.1,从Stanford40标注文件中提取面部动作,通过物体操纵进行面部动作,全身动作,与物体互动的身体动作,与人体互动的身体动作这五类人体行为目标的标注信息步骤2.2,将步骤2.1中的五类行为标注信息写入以图片命名的XML文件中;步骤2.3,将Stanford40数据集文件目录结构转化为形如PASCAL VOC数据集文件目录结构。4.根据权利要求3所述的一种基于YOLOv3

SPP的人体行为识别方法,其特征在于,步骤2.2具体包括如下步骤:步骤2.21,将步骤2.1中的五类行为标注信息写入以图片命名的XML文件中;步骤2.22设计代码按照如下公式:X
center
=(box
xmin
+box
xmax
)/(2
×
picture—width)y
center
=(box
ymin
+box
ymax
)/(2
×
picture_height)width=(box
xmax

box
xmin
)/picture_widthhight=(box
ymax

box
ymin
)/picture_height其中:X
center
为锚框x轴中心点坐标,y
center
为锚框的y轴中心点坐标;box
xmin
为锚框x轴坐标最小值;box
max
为锚框x轴坐标最大值;picture_width为原始图像的宽度;picture_height为原始图像的高度;width为锚框宽度;hight为锚框高度;将标注信息转换成Darknet框架下的格式;
步骤2.23,检查转换后每个图片的TXT标注框格式需为:<object

class><x_center><y_center><width><height>;其中:object

class为类别,x_center为锚框x轴中心点坐标,y_center为锚框的y轴中心点坐标;width为锚框宽度;hight为锚框高度。5.根据权利要求1所述的一种基于YOLOv3

SPP的人体行为识别方法,其特征在于,步骤3具体包括如下步骤:步骤3.1,观察Stanford40训练集标注框坐标信息分布,随机选取选择k个簇中心(ω
i
,h
i
),i∈{1,2
……
,k},其中,w
i
和h
i
为框的宽和高;步骤3.2,分别计算每个标注框和每个簇中心的距离d,计算公式如下:步骤3.3,重新计算k个簇中心所属的标注框宽和高的平均值,作为新的簇中心;步骤3.4,重复步骤3.2和3.3,当聚类中心不再改变时,输出聚类结果;步骤3....

【专利技术属性】
技术研发人员:贠卫国南星辰
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1