基于YOLOv3和词袋模型的行为识别方法技术

技术编号：28421760 阅读：86 留言：0更新日期：2021-05-11 18:29

基于YOLOv3和词袋模型的行为识别方法，包括如下步骤：读取视频帧，用YOLOv3网络进行目标检测，返回目标的位置信息；截取目标区域、生成动作序列；对动作序列中的序列帧进行预处理，然后分别提取多尺度HOG特征和SIFT特征；对提取的多尺度HOG特征和SIFT特征进行特征加权融合；利用K‑means聚类算法对上一步骤加权融合后得到的融合特征进行聚类，构造视觉词典；将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。本方法利用YOLOv3网络检测目标并准确截取目标区域，将其和词袋模型结合，减少训练参数和背景噪声，在KTH数据集上识别率达到96.09%，为视频行为的高效、精准识别提供了新的方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于YOLOv3和词袋模型的行为识别方法
本专利技术涉及行为识别领域，具体涉及基于YOLOv3和词袋模型的行为识别方法。
技术介绍
近年来，随着智慧城市的推广和视频监控在日常生活中越来越广泛的应用，行人目标检测这一课题在计算机视觉领域得到了越来越多的关注，在很多场景下也发挥着越来越重要的作用。在军事领域中，它可用于罪犯定位与追踪，行人分析等任务，在民用领域中，它可用于智能辅助驾驶，智能监控等工作。可以说，行人目标检测技术已经在不知不觉中为我们的生活提供了极大的便利。在实际工程中，人们往往需要对大量图像或视频进行行人的检测与定位，这些工作若全部由人工来完成，不仅耗时耗力，其检测准确性也无法保证。因此，行人目标检测技术在当今时代背景下有着极为广阔的发展前景。行人目标检测的发展分为基于传统方法的行人目标检测，基于机器学习的行人目标检测和基于深度学习的行人目标检测。早期人们主要使用传统方法来进行行人检测，如PBAS算法等，但这些方法受光照，阴影等因素的影响很大，且若目标的颜色和背景颜色接近，极易造成漏检。基于机器学习的行人检测方法是很多工程应用中的主流方法，例如HOG+SVM，ICF+AdaBoost等。尽管经典的机器学习算法相较于传统方法有了一定程度上性能的提升，但仍存在对姿态，角度各异的行人检测精度不高的问题。基于这些问题，人们逐渐提出了基于深度学习的行人检测算法，经典网络例如FasterR-CNN和SSD等在行人目标检测方面均有不错的成绩。但人们在实际工程中始终追求更高的检测精度和检测速度。YOLO(YouOn...

【技术保护点】
1.基于YOLOv3和词袋模型的行为识别方法，其特征在于：所述方法包括如下步骤：/n步骤1：读取视频帧，用YOLOv3网络进行目标检测，返回目标的位置信息；/n步骤2：截取目标区域、生成动作序列；/n步骤3：对动作序列中的序列帧进行预处理，然后分别提取多尺度HOG特征和SIFT特征；/n步骤4：对提取的多尺度HOG特征和SIFT特征进行特征加权融合；/n步骤5：利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类，构造视觉词典；/n步骤6：将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。/n

【技术特征摘要】
1.基于YOLOv3和词袋模型的行为识别方法，其特征在于：所述方法包括如下步骤：
步骤1：读取视频帧，用YOLOv3网络进行目标检测，返回目标的位置信息；
步骤2：截取目标区域、生成动作序列；
步骤3：对动作序列中的序列帧进行预处理，然后分别提取多尺度HOG特征和SIFT特征；
步骤4：对提取的多尺度HOG特征和SIFT特征进行特征加权融合；
步骤5：利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类，构造视觉词典；
步骤6：将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。

2.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法，其特征在于：步骤1中，YOLOv3网络先用ImageNet数据集预训练模型初始化，获得网络的初始化权重，再用CoCo数据集里跟视频行为有关的图像来微调网络，最后用训练好的YOLOv3网络识别出目标区域和非目标物体；根据识别的目标区域，返回目标位置信息(x,y,w,h)，其中(x,y)为目标检测框的左上角坐标，(w,h)为框的宽和高。

3.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法，其特征在于：步骤2中，根据目标的位置信息(x,y,w,h)，对目标区域进行截取，截取边框为[y:y+1.04h,x-0.08w:x+1.08w]，对视频帧的目标区域进行截取后，返回含有基本动作的动作序列帧。

4.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法，其特征在于：步骤3中，对动作序列帧进行图像预处理：首先彩色图像灰度化，其次灰度图像亮度归一化，增强图像对比度，接着对图像进行滤波去噪处理，最后采用双线性插值方法对图像尺寸归一化，使得图像具有相同的尺寸以进行后续特征提取。

5.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法，其特征在于：步骤3中，提取多尺度HOG特征具体为：按照差分公式计算图像梯度大小矩阵和梯度方向矩阵，将360度即2π分割成n个bins，每个bin包含度，即然后根据每个像素点的梯度方向，找到对应的bin，并且在bin值所在的维度加上梯度大小，得到一个n维的直方图；对直方图进行分块处理，得到小cells，针对每个小cell，统计其梯度方向直方图，将多个小cell构成一个block，每个block的梯度方向直方图为每个cell的梯度方向直方图的级联，级联所有block的梯度方向直方图得到整个图像的HOG特征直方图；按...

【专利技术属性】
技术研发人员：宋琳，赵君喜，单义冬，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人