基于YOLOv3和词袋模型的行为识别方法技术

技术编号:28421760 阅读:86 留言:0更新日期:2021-05-11 18:29
基于YOLOv3和词袋模型的行为识别方法,包括如下步骤:读取视频帧,用YOLOv3网络进行目标检测,返回目标的位置信息;截取目标区域、生成动作序列;对动作序列中的序列帧进行预处理,然后分别提取多尺度HOG特征和SIFT特征;对提取的多尺度HOG特征和SIFT特征进行特征加权融合;利用K‑means聚类算法对上一步骤加权融合后得到的融合特征进行聚类,构造视觉词典;将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。本方法利用YOLOv3网络检测目标并准确截取目标区域,将其和词袋模型结合,减少训练参数和背景噪声,在KTH数据集上识别率达到96.09%,为视频行为的高效、精准识别提供了新的方法。

【技术实现步骤摘要】
基于YOLOv3和词袋模型的行为识别方法
本专利技术涉及行为识别领域,具体涉及基于YOLOv3和词袋模型的行为识别方法。
技术介绍
近年来,随着智慧城市的推广和视频监控在日常生活中越来越广泛的应用,行人目标检测这一课题在计算机视觉领域得到了越来越多的关注,在很多场景下也发挥着越来越重要的作用。在军事领域中,它可用于罪犯定位与追踪,行人分析等任务,在民用领域中,它可用于智能辅助驾驶,智能监控等工作。可以说,行人目标检测技术已经在不知不觉中为我们的生活提供了极大的便利。在实际工程中,人们往往需要对大量图像或视频进行行人的检测与定位,这些工作若全部由人工来完成,不仅耗时耗力,其检测准确性也无法保证。因此,行人目标检测技术在当今时代背景下有着极为广阔的发展前景。行人目标检测的发展分为基于传统方法的行人目标检测,基于机器学习的行人目标检测和基于深度学习的行人目标检测。早期人们主要使用传统方法来进行行人检测,如PBAS算法等,但这些方法受光照,阴影等因素的影响很大,且若目标的颜色和背景颜色接近,极易造成漏检。基于机器学习的行人检测方法是很多工程应用中的主流方法,例如HOG+SVM,ICF+AdaBoost等。尽管经典的机器学习算法相较于传统方法有了一定程度上性能的提升,但仍存在对姿态,角度各异的行人检测精度不高的问题。基于这些问题,人们逐渐提出了基于深度学习的行人检测算法,经典网络例如FasterR-CNN和SSD等在行人目标检测方面均有不错的成绩。但人们在实际工程中始终追求更高的检测精度和检测速度。YOLO(YouOnlyLookOnce)是一种基于深度神经网络的对象识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统,YOLOv3在2018年被正式提出,在v2的基础上,将darknet-19扩展至darknet-53,用更深的网络确保更高的检测精度,同时检测速度并没降低,且目前YOLOv3对行人的检测置信度高达0.99,这说明该网络可以很好地区别行人及非行人目标;词袋模型可以有效描述视频序列中局部特征,该模型较容易理解和实施且涉及参数少,算法复杂度低。
技术实现思路
本专利技术提供了基于YOLOv3和词袋模型的行为识别方法,利用YOLOv3网络检测目标并准确截取目标区域,将其和词袋模型结合,减少训练参数和背景噪声,在KTH数据集上识别率达到96.09%,为视频行为的高效、精准识别提供了新的方法。基于YOLOv3和词袋模型的行为识别方法,包括如下步骤:步骤1:读取视频帧,用YOLOv3网络进行目标检测,返回目标的位置信息;步骤2:截取目标区域、生成动作序列;步骤3:对动作序列中的序列帧进行预处理,然后分别提取多尺度HOG特征和SIFT特征;步骤4:对提取的多尺度HOG特征和SIFT特征进行特征加权融合;步骤5:利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类,构造视觉词典;步骤6:将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。进一步地,步骤1中,YOLOv3网络先用ImageNet数据集预训练模型初始化,获得网络的初始化权重,再用CoCo数据集里跟视频行为有关的图像来微调网络,最后用训练好的YOLOv3网络识别出目标区域和非目标物体;根据识别的目标区域,返回目标位置信息(x,y,w,h),其中(x,y)为目标检测框的左上角坐标,(w,h)为框的宽和高。进一步地,步骤2中,根据目标的位置信息(x,y,w,h),对目标区域进行截取,截取边框为[y:y+1.04h,x-0.08w:x+1.08w],对视频帧的目标区域进行截取后,返回含有基本动作的动作序列帧。进一步地,步骤3中,对动作序列帧进行图像预处理:首先彩色图像灰度化,其次灰度图像亮度归一化,增强图像对比度,接着对图像进行滤波去噪处理,最后采用双线性插值方法对图像尺寸归一化,使得图像具有相同的尺寸以进行后续特征提取。进一步地,步骤3中,提取多尺度HOG特征具体为:按照差分公式计算图像梯度大小矩阵和梯度方向矩阵,将360度即2π分割成n个bins,每个bin包含度,即然后根据每个像素点的梯度方向,找到对应的bin,并且在bin值所在的维度加上梯度大小,得到一个n维的直方图;对直方图进行分块处理,得到小cells,针对每个小cell,统计其梯度方向直方图,将多个小cell构成一个block,每个block的梯度方向直方图为每个cell的梯度方向直方图的级联,级联所有block的梯度方向直方图得到整个图像的HOG特征直方图;按该步骤提取两种尺度的HOG特征直方图,并且级联两个尺度的HOG特征直方图得到多尺度的HOG特征直方图H(I)。进一步地,步骤3中,提取SIFT特征具体为:先构建尺度空间,对序列帧图像和高斯卷积核进行卷积获得不同的尺度图像,根据尺度空间构造高斯差分空间DOG;再对DOG相邻两层图像进行对比初步获得关键点,在进行极值点检测时,需将该检测点与上下相邻尺度对应的18个像素点以及同一尺度下的8个相邻像素点进行对比,当该检测点的数据大于或者小于所有相邻数据时,则该点位当前尺度下极值点;然后精确定位极值点位置,去除不稳定极值点,利用关键点领域像素的梯度方向分布特性确定关键点方向,利用直方图对特征点领域内像素对应的梯度方向和幅值进行统计,将0~360度的方向范围分为8个bins,每个bin包含45度,最后在关键点尺度空间内4×4窗口计算8个方向的梯度信息,得到4×4×8=128维SIFT特征向量S(I)。进一步地,步骤4中,针对不同特征提取算法提取出的特征尺度不一致的问题,对得到的特征向量H(I)、S(I)进行尺度归一化;对归一化的HOG特征和SIFT特征进行融合,得到一个新的融合特征T(I)=αH(I)+βS(I),α,β是权值,且满足α+β=1。进一步地,步骤5中,K-means算法先将融合特征分为K组,随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算,直到满足终止条件停止计算;由K-means算法获得词袋模型的码本,每一类的聚类中心就是码本中的码字,码本即视觉词典,把动作序列中所有的融合特征根据欧式距离映射到离其最近的码字,统计动作序列中每个码字对应的特征出现的次数,构成直方图向量L。进一步地,步骤6中,将数据集分成训练集和测试集,把对应的视觉词典向量输入到SVM多分类器模型进行训练和分类识别;SVM采用RBF核函数:其中Li和Lj表示视频的码本直方图向量,σ2表示高斯函数的方差。本专利技术达到的有益效果为:(1)YOLOv3多用于基于图片的目标检测及识别,本专利技术将该网络用于基于视频的目标检测,运行速度快,实时性较好,目标识别和定位效果好。(2)YOLOv3网络先用ImageNet数据集预训练模型初始化,本文档来自技高网
...

【技术保护点】
1.基于YOLOv3和词袋模型的行为识别方法,其特征在于:所述方法包括如下步骤:/n步骤1:读取视频帧,用YOLOv3网络进行目标检测,返回目标的位置信息;/n步骤2:截取目标区域、生成动作序列;/n步骤3:对动作序列中的序列帧进行预处理,然后分别提取多尺度HOG特征和SIFT特征;/n步骤4:对提取的多尺度HOG特征和SIFT特征进行特征加权融合;/n步骤5:利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类,构造视觉词典;/n步骤6:将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。/n

【技术特征摘要】
1.基于YOLOv3和词袋模型的行为识别方法,其特征在于:所述方法包括如下步骤:
步骤1:读取视频帧,用YOLOv3网络进行目标检测,返回目标的位置信息;
步骤2:截取目标区域、生成动作序列;
步骤3:对动作序列中的序列帧进行预处理,然后分别提取多尺度HOG特征和SIFT特征;
步骤4:对提取的多尺度HOG特征和SIFT特征进行特征加权融合;
步骤5:利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类,构造视觉词典;
步骤6:将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。


2.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤1中,YOLOv3网络先用ImageNet数据集预训练模型初始化,获得网络的初始化权重,再用CoCo数据集里跟视频行为有关的图像来微调网络,最后用训练好的YOLOv3网络识别出目标区域和非目标物体;根据识别的目标区域,返回目标位置信息(x,y,w,h),其中(x,y)为目标检测框的左上角坐标,(w,h)为框的宽和高。


3.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤2中,根据目标的位置信息(x,y,w,h),对目标区域进行截取,截取边框为[y:y+1.04h,x-0.08w:x+1.08w],对视频帧的目标区域进行截取后,返回含有基本动作的动作序列帧。


4.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤3中,对动作序列帧进行图像预处理:首先彩色图像灰度化,其次灰度图像亮度归一化,增强图像对比度,接着对图像进行滤波去噪处理,最后采用双线性插值方法对图像尺寸归一化,使得图像具有相同的尺寸以进行后续特征提取。


5.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤3中,提取多尺度HOG特征具体为:按照差分公式计算图像梯度大小矩阵和梯度方向矩阵,将360度即2π分割成n个bins,每个bin包含度,即然后根据每个像素点的梯度方向,找到对应的bin,并且在bin值所在的维度加上梯度大小,得到一个n维的直方图;对直方图进行分块处理,得到小cells,针对每个小cell,统计其梯度方向直方图,将多个小cell构成一个block,每个block的梯度方向直方图为每个cell的梯度方向直方图的级联,级联所有block的梯度方向直方图得到整个图像的HOG特征直方图;按...

【专利技术属性】
技术研发人员:宋琳赵君喜单义冬
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1