一种基于视频理解的矿井下异常动作识别方法技术

技术编号:38907865 阅读:14 留言:0更新日期:2023-09-25 09:26
一种基于视频理解的矿井下异常动作识别方法,其中包括:通过摄像头获取井下包含矿工实时动作的视频数据;预处理视频数据进行视频剪裁与抽帧,先将图片帧中的人物进行识别与标记;再将标记的人物目标绑定ID进行前后帧目标跟踪;将目标跟踪的结果送入3D卷积神经网络提取视频帧特征;将样本输入至SlowFast网络获得动作识别结果;根据追踪目标的具体动作,发现异常行为并发出警告。本发明专利技术解决了矿井下矿工异常动作判断智能化水平低的问题。异常动作判断智能化水平低的问题。异常动作判断智能化水平低的问题。

【技术实现步骤摘要】
一种基于视频理解的矿井下异常动作识别方法


[0001]本专利技术涉及一种视频检测方法,一种基于视频理解的矿井下异常动作识别方法。

技术介绍

[0002]矿井安全生产是矿石企业经济效益得以保证的基础,也是其生产经营的主要内容和首要环节。过去近10年,我国矿石产量先后经历了供给侧改革前后的上涨、下跌和回升,然而矿井安全水平却在不断提升,百万吨死亡率基本成逐年下降趋势,这要得益于煤矿机械化、智能化推进对少人化、无人化的推动,以及政策层面对于安全生产的高度重视。矿产资源是经济社会发展的重要物质基础,开发利用矿产资源是现代化建设的必然要求。矿井下普遍有着环境错综复杂,矿工数量较多,机器设备庞大等特点,如果不能对矿工的行为进行有效监控,矿工在工作过程中很可能发生安全事故,对人员生命和设备安全造成危害。通过调查近些年的井下事故,可以发现大部分的事故都是作业人员行为不规范,做出异常动作导致的。国内行业对井下作业人员的行为监控仍采用传统人工监控方法,即监控人员通过采集到的监控视频对井下情况进行监测。但是,这种依靠人工的方法存在一系列问题。第一,监控人员长时间观看井下视频,身体容易产生疲劳,随着时间的增加,监控人员难以保持专注,反应力会下降,当发现井下工作人员进行异常行为动作,比如横跨轨道时,不能及时地对异常动作做出反应,因此人工监测存在较大的安全隐患。第二,井下地形复杂、区域众多,监控人员无法同时对多处区域的视频进行有效监控,容易遗漏部分区域。并且,由于工人数量多,行为动作复杂,有时会在短时间内发生人数的变化以及较大的动作幅度,人工同时对多个视频的监测能力有限,与智能化监控相比,工作效率低。第三,井下的图像细节模糊、曝光不均,在光线弱、粉尘多的地方,监控人员的辨别能力会大幅减弱。同时因为井下巷道狭窄、矿石等障碍物多,易形成视野盲区,仅通过人眼观测,难以精准地监测到矿工行为动作的细节,可能做出错误判断,因此监控效果不佳。
[0003]综上所述,传统的矿井下异常动作识别大量依赖人工处理,存在着无法保持高效监测、容易遗漏区域、图像辨别能力弱等技术问题。

技术实现思路

[0004]对于上述现有技术存在的问题,提出了基于视频理解的矿井下异常动作识别系统,目的为了避免矿井下工人异常行为的发生。包括:通过摄像头获取井下视频数据;预处理视频数据进行视频剪裁与抽帧,先将图片帧中的人物进行识别与标记;再将标记的人物目标绑定ID进行前后帧跟踪;视频结果送入预设的3D

Resnet网络并获得权重;将样本输入至SlowFast网络获得动作识别结果;根据追踪目标的具体动作,发现异常行为并发出警告。本专利技术解决了矿井下矿工异常动作判断智能化水平低的问题。
[0005]本专利技术解决技术问题采用如下技术方案:
[0006]1、一种基于视频理解的矿井下异常动作识别方法,用于对矿井场景中矿工异常动作进行智能识别,其特征是按以下步骤进行:
[0007]a、样本准备阶段,获取矿井下工作环境视频,对视频进行剪裁与抽帧,预处理有矿工出现的视频作为标记图像,将所述处理标记图像按7:3分为训练样本和测试样本,对异常的标注图像数据进行剔除后得到训练用的数据集;
[0008]b、使用处理后的训练样本训练yolov5s网络,对有矿工出现的视频进行人物识别;
[0009]c、使用deepsort算法对yolov5s的结果进行人物ID绑定进行目标跟踪;
[0010]d、通过所述的训练好的SlowFast网络进行检测获得人物动作识别结果,识别到可能存在的异常动作;
[0011]2、如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段获取矿井下工作环境的步骤,包括:
[0012](1)在矿井车上或者井下工作区域安装摄像头采集有矿工出现的视频流数据;
[0013](2)按照一定的时间间隔抽取视频中的关键帧并保存为图像数据;
[0014]3、如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段预处理步骤,包括:
[0015](1)采用标注软件对所述图像数据进行标注,获得并保存标注后的标记数据集;
[0016](2)对抽取的视频帧进行整合和缩减帧;
[0017](3)从标注后的数据集中按照7:3分成训练样本和测试样本;
[0018]4、如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段对异常数据剔除步骤,包括:
[0019](1)剔除没有矿工等人物目标出现的数据;
[0020](2)剔除人物目标出现但是人物信息不完整的数据;
[0021]5、如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤b对有矿工出现的视频进行人物识别,包括:
[0022](1)输入端主要对输入的图片进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算和自适应图片缩放。
[0023](2)主干网络部分主要包括Focus层、卷积块(CBL)、跨阶段局部网络(Cross Stage Partial Network,CSPNet)和空间金字塔池化(Spatial Pyramid Pooling,SPP)模块。通过切片操作对输入图像进行裁剪和堆叠,将图片长宽缩小到原始的一半,通道数为原来的4倍,可减少模型计算量,且不会带来信息损失。具体流程为:首先切片操作将输入的原始640
×
640
×
3通道的图像分成4个切片,每个切片的大小为320
×
320
×
3。其次,利用32个卷积核的卷积操作将4个部分Concat操作深度连接起来,再通过32个卷积组成的卷积层,输出大小为320
×
320
×
32的特征图。由Conv卷积层+BatchNorm层+LeakyRelu激活函数共同组成CBL,即输入部分先经过卷积层(conv),提取输入特征,找到特定的局部图像特征;接着通过BatchNorm层,进行归一化,将每次的梯度分布都控制在原点附近,使各个batch的偏差不会过大;最后再由LeakyRelu激活函数将输出结果传到下一层卷积。
[0024][0025]LeakyReLU通过把x的非常小的线性分量给予负输入来调整负值的零梯度问题,通常a的值为0.01左右。CSP:在YOLOv5s中有两种CSP结构,其中CSP1_X在Backbone网络中实现特征提取,CSP2_X在Neck结构中使用进行预测。主干网络的CSP1_X模块由支路1和支路2组
成,支路1由卷积层、批量归一化和激活函数组成,支路2由卷积层、批量归一化、激活函数和X个残差单元组成;所述Neck网络的CSP2_X模块由支路3和支路4组成,支路3和支路4均由卷积层、批量归一化和激活函数组成。经过两条支路,通道数都会减半,再经过Concat拼接起来,通道数保持不变。CSP1_X模块解决了Backbone结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频理解的矿井下异常动作识别方法,用于对矿井场景中矿工异常动作进行智能识别,其特征是按以下步骤进行:a、样本准备阶段,获取矿井下工作环境视频,对视频进行剪裁与抽帧,预处理有矿工出现的视频作为标记图像,将所述处理标记图像按7:3分为训练样本和测试样本,对异常的标注图像数据进行剔除后得到训练用的数据集;b、使用处理后的训练样本训练yolov5s网络,对有矿工出现的视频进行人物识别;c、使用deepsort算法对yolov5s的结果进行人物ID绑定进行目标跟踪;d、通过所述的训练好的SlowFast网络进行检测获得人物动作识别结果,识别到可能存在的异常动作。2.如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段获取矿井下工作环境的步骤,包括:(1)在矿井车上或者井下工作区域安装摄像头采集有矿工出现的视频流数据;(2)按照一定的时间间隔抽取视频中的关键帧并保存为图像数据。3.如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段预处理步骤,包括:(1)采用标注软件对所述图像数据进行标注,获得并保存标注后的标记数据集;(2)对抽取的视频帧进行整合和缩减帧;(3)从标注后的数据集中按照7:3分成训练样本和测试样本。4.如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤a样本准备阶段对异常数据剔除步骤,包括:(1)剔除没有矿工等人物目标出现的数据;(2)剔除人物目标出现但是人物信息不完整的数据。5.如权利要求1所述基于视频理解的矿井下异常动作识别方法,其特征是所述步骤b对有矿工出现的视频进行人物识别,包括:(1)输入端主要对输入的图片进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算和自适应图片缩放。(2)主干网络部分主要包括Focus层、卷积块(CBL)、跨阶段局部网络(Cross Stage Partial Network,CSPNet)和空间金字塔池化(Spatial Pyramid Pooling,SPP)模块。Focus:通过切片操作对输入图像进行裁剪和堆叠,将图片长宽缩小到原始的一半,通道数为原来的4倍,可减少模型计算量,且不会带来信息损失。具体流程为:首先切片操作将输入的原始640
×
640
×
3通道的图像分成4个切片,每个切片的大小为320
×
320
×
3。其次,利用32个卷积核的卷积操作将4个部分Concat操作深度连接起来,再通过32个卷积组成的卷积层,输出大小为320
×
320
×
32的特征图。CBL:由Conv卷积层+BatchNorm层+LeakyRelu激活函数共同组成,即输入部分先经过卷积层(conv),提取输入特征,找到特定的局部图像特征;接着通过BatchNorm层,进行归一化,将每次的梯度分布都控制在原点附近,使各个batch的偏差不会过大;最后再由LeakyRelu激活函数将输出结果传到下一层卷积。LeakyReLU通过把x的非常小的线性分量给予负输入来调整负值的零梯度问题,通常a
的值为0.01左右。CSP:在YOLOv5s中有两种CSP结构,其中CSP1_X在Backbone网络中实现特征提取,CSP2_X在Neck结构中使用进行预测。主干网络的CSP1_X模块由支路1和支路2组成,支路1由卷积层、批量归一化和激活函数组成,支路2由卷积层、批量归一化、激活函数和X个残差单元组成;所述Neck网络的CSP2_X模块由支路3和支路4组成,支路3和支路4均由卷积层、批量归一化和激活函数组成。经过两条支路,通道数都会减半,再经过Concat拼接起来,通道数保持不变。SPP:先进行Conv卷积提取特征输出,接着采用1
×
1、5
×
5、9
×
9、13
×
13四种尺度的最大池化,然后由Concat进行拼接实现多尺度特征融合。Backbone网络得到尺寸为80
×
80
×
128、40
×
40
×
256、20
×
20
×
512三种不同尺度的特征图并送入Neck端;其中,尺寸为80
×
80
×
128的特征图包含的低级层特征占大多数,以加强模型小目标检测性能;尺寸为20
×
20
×
512的特征图包含高级层特征占大多数,以加强模型大目标检测性能;尺寸为40
×
40
×
256的特征图的低级和高级特征信息占比相当,用于中等目标检测。(3)Neck网络利用了特征金字塔网络(Feature Pyramid Networks,FPN)将深层的语义特征传到浅层,而路径聚合网络(Path Aggregation Network,PAN)则可以将浅层的位置信息传递到更深层,从而提高了定位能力。FPN+PAN结构不仅获得了丰富的语义特征,还获得了较强的定位特征,增强特征融合效果。具体流程为:首先FPN网络对图像金字塔SPP处理后的特征图进行卷积操作,卷积过程的卷积核大小为1*1、步长为2,经过卷积特征提取后得出尺寸大小为20*20的特征图,与来自主干网络提取出的同样大小为20*20的特征图进行2倍的上采样特征融合,得到尺寸大小40*40的特征图,接着将处理得到的40*40特征图继续重复进行卷积操作,卷积过程的卷积核大小为1*1、步长为2,经过卷积特征提取后得出...

【专利技术属性】
技术研发人员:贾兆红夏浩源段章领仰劲涛彭志王坤周行云慈正航江一航金怡蒙
申请(专利权)人:苏州图灵智驰智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1