一种改进YOLOv3和BiConvLSTM的不良视频检测方法技术

技术编号:34935514 阅读:17 留言:0更新日期:2022-09-15 07:32
本发明专利技术提供一种改进YOLOv3和BiConvLSTM的不良视频检测方法;首先利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;其次,改进YOLOv3模型进行不良视频帧的特征提取,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度,得到关注增强特征的不良视频帧特征;然后,利用双向卷积长短时记忆模型双向全方位获取综合深层隐藏时空特征,全连接层改为平均池化层,进行不良视频检测分类;将改进YOLOv3模型得到的不良视频帧的图像特征输入到改进的BiConvLSTM得到综合全面的深层隐藏的不良时空特征,输入到全局平均池化层得到不良视频的检测分类结果。不良视频的检测分类结果。不良视频的检测分类结果。

【技术实现步骤摘要】
一种改进YOLOv3和BiConvLSTM的不良视频检测方法


[0001]本专利技术涉及一种不良视频检测方法,属于图像处理与计算机视觉领域。

技术介绍

[0002]目前的不良视频检测方法主要有基于机器学习的不良行为检测方法和基于深度学习的不良视频检测方法。以上方法虽然取得了一定的成果,但是仍存在传统的特征选择加机器学习的不良视频检测方法存在特征抽取繁琐,模型表征能力欠佳等弊端;基于深度学习的不良视频的检测方法虽然可以较好的提取视频的特征,但是输入的图片或者视频帧只能是固定大小,不但加重了数据预处理的使得模型的检测效果以及检测范围大打折扣。而且现有方法,在不良视频帧分类的过程中,往往采用softmax分类器,参数过多,可能造成模型过拟合的问题。现有的基于神经网络的方法,例如卷积神经网络

卷积长短时记忆(CNN

ConvLSTM)方法常用于不良视频的检测,但是该方法利用CNN提取特征的效果不够突出,长短时记忆用于分类时只关注最后时刻的隐层状态,而忽略了更加全面的隐含时序特征。

技术实现思路

[0003]本专利技术为了解决现有不良视频检测模型输入固定大小视频帧,模型灵活度不高,模型表征能力不佳,图像特征不突出,时序特征获取不全面的情况,以及现有不良行为检测模型分类器参数过多,模型过拟合等问题,为了同时序序列中提取同时考虑时间,空间以及周期等条件的不良行为特征,并对不同不良行为特征进行精准分类,本专利技术提供了一种改进YOLOv3和BiConvLSTM的不良视频检测方法
[0004]本专利技术所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,主要通过以下技术方案实现:步骤一、利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本专利技术的实验数据集;步骤二、改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1
×
1卷积策略代替全连接层;步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法,针对改进卷积长短时记忆模型获取时空特征不全面的问题,采用双向卷积长短时记忆模型;针对改进卷积长短时记忆模型全连接层参数过多,可能造成过拟合的问题,将全连接层改为平均池化层;步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,融合模型命名为YOLOv3

MHA

Bi改进卷积长
短时记忆模型;将预处理的视频帧图像输入到YOLOv3

MHA

Bi改进卷积长短时记忆模型中,最终输出不良视频的检测结果。
[0005]进一步的,步骤一中所述利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本专利技术的实验数据集,具体过程如下:首先,对数据集进行预处理;数据集Hockey Fight里包含不良视频500个,非不良视频500个,其中不良视频中包含的不良行为均为肢体接触冲突,数据集的每个不良视频大小为41帧,25fps帧率,360
×
288的分辨率;数据集Mediaeval2015包含不良视频502个,非不良视频10398个,其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等;自行获取的视频大多是公共场所的监控视频的不良行为片段,利用LabelImage工具对视频帧进行人工标注;其次,对数据集进行扩充,由于不良视频样本数远小于非不良视频样本数,数据集存在正反例不均衡的现状,因此,本专利技术将不良视频样本进行正放,倒放,镜像等处理,进而将是聚集进行扩充;最后,进行数据集划分,将三种数据集进行融合,最终融合数据集包含不良视频样本2000个,并且从非不良视频样本中取2000个样本作为反例;按照7:3的比例将数据集划分为训练集和测试集,训练集包含2800个视频,测试集包含1200个视频样本。
[0006]进一步的,步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层(Multi

head Self

Attention)来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1
×
1卷积策略代替全连接层,具体过程如下:首先,利用YOLOv3模型获取视频帧的图像特征表示,YOLOv3一共有53层,该53层的结构命名为darknet

53,其中包括52层的卷积层和一层的全连接层,卷积层全都使用全卷积结构,由1
×
1卷积和3
×
3卷积构成一个Residual单元;YOLOv3模型包括若干的DBL组件和resN组件,resN组件中包含DBL组件结构,DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层;resN组件是YOLOv3模型darknet

53核心结构的最大组件,N代表的是res这个块结构中包含几个res单元结构,resN组件包含res1、res2、res8、res8以及res4单元,此结构具有更深的层次,可以更加有效的提取不良视频帧的深层特征,首先,将大小为M
×
N的不良视频帧作为输入,输入到YOLOv3模型中,调整输入为256
×
256的维度;如在图3中,假设输入的视频帧的尺寸为416
×
416,则可得到3个特征尺度,分别是13
×
13,26
×
26,还有52
×
52,因此根据K

means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框;其次,添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征,在YOLOv3模型之前添加多头自注意力层,注意力层不改变输出向量的维度,将大小为M
×
N,通道数为T
in
的视频帧图像平铺为一维输入,根据单层注意力的计算公式,定义查询向量Q,键向量K,值向量V,如公式(1)~(3)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,具体包括以下步骤:步骤一、利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本发明的实验数据集;步骤二、改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1
×
1卷积策略代替全连接层;步骤三、改进卷积长短时记忆模型进行不良视频的不良行为检测方法,针对改进卷积长短时记忆模型获取时序特征不全面的问题,采用双向卷积长短时记忆模型;针对改进卷积长短时记忆模型全连接层参数过多,可能造成过拟合的问题,将全连接层改为平均池化层;步骤四、融合改进YOLOv3模型进行不良视频帧的特征提取方法和改进卷积长短时记忆模型进行不良视频的不良行为检测方法,融合模型命名为YOLOv3

MHA

Bi改进卷积长短时记忆模型;将预处理的视频帧图像输入到YOLOv3

MHA

Bi改进卷积长短时记忆模型中,最终输出不良视频的检测结果。2.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,步骤一中所述利用不良视频的定义:因画面中包括持械斗殴、争吵打骂和肢体冲突等行为而被认定为不适宜观看的视频;对数据进行预处理,将处理后的数据集Hockey Fight,Mediaeval2015与自行获取的视频数据作为本发明的实验数据集,具体过程如下:首先,对数据集进行预处理;数据集Hockey Fight里包含不良视频500个,非不良视频500个,其中不良视频中包含的不良行为均为肢体接触冲突,数据集的每个不良视频大小为41帧,25fps帧率,360
×
288的分辨率;数据集Mediaeval2015包含不良视频502个,非不良视频10398个,其中不良视频中的不良行为包括器械争斗行为和肢体不良冲突行为等;自行获取的视频大多是公共场所的监控视频的不良行为片段,利用LabelImage工具对视频帧进行人工标注;其次,对数据集进行扩充;由于不良视频样本数远小于非不良视频样本数,数据集存在正反例不均衡的现状;因此,本发明将不良视频样本进行正放,倒放,镜像等处理,进而将是聚集进行扩充;最后,进行数据集划分;将三种数据集进行融合,最终融合数据集包含不良视频样本2000个,并且从非不良视频样本中取2000个样本作为反例;按照7:3的比例将数据集划分为训练集和测试集,训练集包含2800个视频,测试集包含1200个视频样本。3.根据权利要求1所述一种改进YOLOv3和BiConvLSTM的不良视频检测方法,其特征在于,步骤二中所述改进YOLOv3模型进行不良视频帧的特征提取方法,针对传统CNN模型提取特征时未关注的特征重要程度对特征提取的影响,添加多头注意力层来增强特征,根据注意力权重判断特征重要程度;针对传统YOLO模型提取特征时限定图片大小的不灵敏性,利用1
×
1卷积策略代替全连接层,具体过程如下:首先,利用YOLOv3模型获取视频帧的图像特征表示,YOLOv3一共有53层,该53层的结构
命名为darknet

53,其中包括52层的卷积层和一层的全连接层,卷积层全都使用全卷积结构,由1
×
1卷积和3
×
3卷积构成一个Residual单元;YOLOv3模型包括若干的DBL组件和resN组件,resN组件中包含DBL组件结构,DBL组件的基本组成包括卷积层、DB层以及Leaky RELU激活函数层;resN组件是YOLOv3模型darknet

53核心结构的最大组件,N代表的是res这个块结构中包含几个res单元结构,resN组件包含res1、res2、res8、res8以及res4单元,此结构具有更深的层次,可以更加有效的提取不良视频帧的深层特征,首先,将大小为M
×
N的不良视频帧作为输入,输入到YOLOv3模型中,调整输入为256
×
256的维度;如在图3中,假设输入的视频帧的尺寸为416
×
416,则可得到3个特征尺度,分别是13
×
13,26
×
26,还有52
×
52,因此根据K

means聚类算法在三个尺度的特征图上划分为每个尺度3个先验框;其次,添加多头注意力层以获取融合视频上下文的不良视频帧的增强特征,在YOLOv3模型之前添加多头自注意力层,注意力层不改变输出向量的维度,将大小为M
×
N,通道数为T
in
的视频帧图像平铺为一维输入,根据单层注意力的计算公式,定义查询向量Q,键向量K,值向量V,如公式(1)~(3)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ...

【专利技术属性】
技术研发人员:付强赵洪伟
申请(专利权)人:山东百盟信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1