一种改进YOLO-PAI的实时接打电话行为检测方法技术

技术编号:35876221 阅读:18 留言:0更新日期:2022-12-07 11:13
本发明专利技术公开了一种改进YOLO

【技术实现步骤摘要】
一种改进YOLO

PAI的实时接打电话行为检测方法


[0001]本专利技术涉及深度学习、图像处理技术及辅助驾驶
,具体涉及一种改进YOLO

PAI的实时接打电话行为检测方法。

技术介绍

[0002]在网络高速发展的时代背景下,随着智能手机的普遍应用,例如微信电话等免费语音通话方式得到了很大的关注,语音通话虽给人生活带来了便利,是生活中必不缺少的环节,但在一些特殊场所手持通话却带来了重大安全隐患。例如:机车乘务员接打电话会导致注意力分散而造成安全事故的发生;在加油站加油时,要遵守加油站内不打手机等规定,尤其是在离加油枪、储油罐较近的区域,更应提高安全意识,否则会引发爆炸;开车时接打电话属于一种危险驾驶行为,开车接打电话导致事故的风险比通常情况下高出4倍,开车接打手机时的反应比其他危险驾驶行为酒驾、毒驾还要慢得多,很容易发生交通事故。
[0003]针对人手持通话会导致的重大安全隐患问题,这些特定场景中都安装了监控摄像头,例如加油站、公交车、货车、出租车,这对人的行为起到了一定的约束和规范作用,然而,人由于疏忽、怠慢等心理原因仍可能不自觉的做出危险行为,从而发生安全事故。人员在特定场景手持通话等危险行为检测算法与嵌入式应用,得到了大量的研究。传统的方法使用机器学习算法,需要手工提取特征,然后使用一个分类器进行分类,如Haar特征+Adaboost算法,Hog特征+SVM算法,DPM算法等。这些方法一般有以下缺点:特征需要人工提取,工作量大,时间成本高,检测效果一般。随着AlexNet的出现,由于convolutional neural network(CNN)可以提取特征,并且大大提高了目标检测的准确性,使得类似危险行为检测采用了深度学习算法来代替传统的机器学习算法。
[0004]近年来,小目标检测已成为目标检测领域具有挑战性的问题,人手持通话检测本质上可以看作是小目标物体手机的检测。小目标检测的难点在于目标占原图中的占比小,无法提取充足且有效的特征,造成小目标检测结果不理想。其次,神经网络在学习中被大目标主导,小目标在整个学习过程被忽视,导致小目标的检测效果差,特别是网络层数多,小目标的特征信息将会丢失。克服由于光照、角度和遮挡对于目标检测提取能力较差的问题,成为小目标物体检测亟需解决的难题。
[0005]一般来说,手持通话检测运行在高性能计算平台上。但是,在一些资源设备受限的场景,比如加油站、公交车、货车等无法满足其需求,可用于资源受限设备的轻量级模型,检测人员在特定场景是否存在危险行为的结果不太理想,算法有待提高。

技术实现思路

[0006]本专利技术的目的是提供一种改进YOLO

PAI的实时接打电话行为检测方法,针对现有的打电话行为检测方法存在的问题,进一步改善实时接打电话行为检测效果。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:
[0008]一种改进YOLO

PAI的实时接打电话行为检测方法,包括以下步骤:
[0009]步骤S1、通过监控平台获取的人员接打电话视频,建立并标注Phonehand_Imgs数据集,并划分训练集、验证集和测试集;
[0010]步骤S2、使用目标检测模块和注意力机制模块搭建卷积神经网络,网络最终输出为人的手部、手机和检测框位置信息;
[0011]步骤S3、利用搭建的卷积神经网络对数据集图像进行训练,对于步骤S1中的数据集图像进行特征提取,图像通过SRblock_body结构,在对图像进行卷积的过程中不断融合浅层的图像特征;
[0012]步骤S4、在卷积的过程中,为了提高提取关键特征的能力,结合SE通道注意力机制和CBAM空间注意力机制,为不同的特征分配不同的权重,使网络能够更有效地提取关键特征;
[0013]步骤S5、因为深度网络可以提供更多的语义信息,YOLOv4结构中的三个尺度预测分支位于网络的较低层,使用k

means聚类算法获得的9个锚点可能更倾向于小型目标;为了提高稍大目标的检测性能,我们增加了第四个尺度的特征映射分支,扩大检测范围,丰富用于预测多尺度的特征图;
[0014]步骤S6、将接打电话检测模型转换为可以嵌入式部署的模型;
[0015]步骤S7、将步骤S6中转换后的模型部署到监控终端设备中,将终端设备摄像头拍摄的视频流输入接打电话检测模型,并输出检测结果。
[0016]进一步的,所述步骤S1的具体步骤如下:
[0017]步骤S11、Phonehand_Imgs数据集由视频监控设备采集,提取数据集中人员手部和手机两种标注信息;
[0018]步骤S12、将Phonehand_Imgs数据集按照8:2的比例划分训练集和验证集;
[0019]步骤S13、在训练阶段加载数据集时,使用Mosaic数据增强方法提高数据鲁棒性、利用Label Smoothing平滑、CIOU、学习率余弦退火衰减提高实验效果,以及水平和垂直翻转、随机旋转、随机裁剪、变形和缩放等数据增强方式增加数据量较少的类型的样本量,提高模型的泛化能力。
[0020]进一步的,步骤S2中所述卷积神经网络包括目标检测模块和注意力机制模块,其中,目标检测模块用于检测人的手部信息及手机位置信息,注意力机制模块用于为不同的特征分配不同的权重,使网络能够更有效地提取关键特征。
[0021]进一步的,步骤S2所述神经网络搭建的具体步骤为:
[0022]步骤S21、输入图像在保证纵横比的前提下被缩放到416
×
416像素,并输入到网络中提取特征映射。其中46个层被划分为具有5个不同大小的23个残差单元,它得益于残差网络中Residual units的优点,可以通过构建更深层次的网络来改善网络的非线性,避免梯度消失的问题,显著提高分类和检测效果;通过利用剪枝算法将原先的五个部分1、2、8、8、4(1
‑2‑8‑8‑
4)残块改进成1
‑2‑8‑4‑
4结构,并将初始通道数设定为16;
[0023]步骤S22、为了提高检测准确度和速度,引入SE模块,提出SRblock_body模块代替原先的CSPBlock模块;在SRblock_body模块中,将基于Inception结构体替换原来的3
×
3卷积核,在减少了模块的参数同时,扩大了特征提取的感受野;此外,在卷积过程中,为了提高提取关键特征的能力,其结合了通道注意力机制,为不同的特征分配不同的权重,使网络能够更有效地提取关键特征;输入经过一层3
×
3卷积层,降低特征图宽度和高度;再进行分路
操作,一路操作进行一层1
×
1的卷积视为残差边,通道不降维,减少原先进入残差块的特征层数量。另一路操作输入到n个Residual结构中,先进行一层1
×
1的卷积层,通道降维从原来的32降到16,随后使用3x1+1x3卷积来代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进YOLO

PAI的实时接打电话行为检测方法,其特征在于:包括以下步骤:步骤S1、通过监控平台获取的人员接打电话视频,建立并标注Phonehand_Imgs数据集,并划分训练集、验证集和测试集;步骤S2、使用目标检测模块和注意力机制模块搭建卷积神经网络,网络最终输出为人的手部、手机和检测框位置信息;步骤S3、利用搭建的卷积神经网络对数据集图像进行训练,对于步骤S1中的数据集图像进行特征提取,图像通过SRblock_body结构,在对图像进行卷积的过程中不断融合浅层的图像特征;步骤S4、在卷积的过程中,使用SE通道注意力机制和CBAM空间注意力机制,为不同的特征分配不同的权重,使网络能够更有效地提取关键特征;步骤S5、增加第四个尺度的特征映射分支,扩大检测范围,丰富用于预测多尺度的特征图。步骤S6、将接打电话检测模型转换为可以嵌入式部署的模型。步骤S7、将步骤S6中转换后的模型部署到监控终端设备中,将终端设备摄像头拍摄的视频流输入接打电话检测模型,并输出检测结果。2.如权利要求1所述的基于边缘对称填充和大感受野的路面病害检测方法,其特征在于:步骤S1包括:步骤S11、Phonehand_Imgs数据集由视频监控设备采集,提取数据集中人员手部和手机两种标注信息;步骤S12、将Phonehand_Imgs数据集按照8:2的比例划分训练集和验证集;步骤S13、在训练阶段加载数据集时,使用Mosaic数据增强方法提高数据鲁棒性、利用Label Smoothing平滑、CIOU、学习率余弦退火衰减提高实验效果,以及水平和垂直翻转、随机旋转、随机裁剪、变形和缩放数据增强方式增加数据量较少的类型的样本量,提高模型的泛化能力。3.如权利要求1所述的基于边缘对称填充和大感受野的路面病害检测方法,其特征在于:步骤S2中所述卷积神经网络包括目标检测模块和注意力机制模块,其中,目标检测模块用于检测人的手部信息及手机位置信息,注意力机制模块用于为不同的特征分配不同的权重,使网络能够更有效地提取关键特征。4.如权利要求1所述的基于边缘对称填充和大感受野的路面病害检测方法,其特征在于:步骤2所述YOLO
‑<...

【专利技术属性】
技术研发人员:赵作鹏郑天赐郝凯赵广明徐俊杰刘笑枫崔舒娅周杰贺晨
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1