一种基于R-C3D网络的端到端视频时序行为检测方法技术

技术编号：23213139 阅读：38 留言：0更新日期：2020-01-31 21:59

本发明专利技术公开了一种基于R‑C3D网络的端到端视频时序行为检测方法，属于计算机视觉领域，该方法包括：对输入视频进行帧率调整和帧提取，将提取到的帧进行归一化和数据增强后，作为训练集和测试集；构建时序行为检测模型；该时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；其中长时信息编码模块，对提取的特征图进行编码，得到包含长时间信息的特征；将训练集和测试集输入时序行为检测模型中进行训练；将待检测视频输入训练好的时序行为检测模型进行检测，得到视频中存在的行为类别和定位信息。本发明专利技术通过设计长时信息编码网络，对提取的特征进行编码，使得网络能够获得时序动作的全局时间信息，提高了动作定位和分类的准确度。

An end-to-end video temporal behavior detection method based on r-c3d network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于R-C3D网络的端到端视频时序行为检测方法
本专利技术属于计算机视觉
，更具体地，涉及一种基于R-C3D网络的端到端视频时序行为检测方法。
技术介绍
随着视频，手机，网络的普及，越来越多的视频被产生。为了能够定向的搜索视频，以及从视频中找到特定的行为，比如偷盗，打架等危险行为，以便于保证财产和人身安全。长未修剪视频中的时间动作检测越来越受到关注。该任务的目的是暂时定位感兴趣的动作发生间隔，并在长的未修剪的视频中预测动作类别。由于行动的时间持续时间变化很大，从几秒钟到几秒钟之间的分数，以及目标行为在非相关活动的背景下，行动检测任务面临诸多挑战。目前，大多数现有方法将时间动作检测分成多个阶段，即预先计算特征，生成提议，对提议进行分类以及排名。比如PSDF方法，该方法基于iDT特征对视频提取了一种分数分布金字塔，之后再利用LSTM网络对PSDF特征序列进行处理，并根据输出的帧级的行为类别置信度分数处理得到行为片段的预测，但是由于iDT特征的提取耗费大量的时间和资源，严重限制了网络的运行速度；BSN方法则是利用...

【技术保护点】
1.一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，包括：/n(1)对输入视频进行帧率调整和帧提取，将提取到的帧进行归一化和数据增强后，作为训练集和测试集；/n(2)构建时序行为检测模型；/n所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；/n所述特征提取模块，用于对输入图片进行提取特征，得到特征图；所述长时信息编码模块，用于对所述特征图进行编码，得到包含长时间信息的特征；所述行为识别模块，用于根据所述长时间信息的特征进行动作识别和定位；/n(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练；/n(4)将待检测视频输入训练好的时序行为检测模型进行...

【技术特征摘要】
1.一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，包括：
(1)对输入视频进行帧率调整和帧提取，将提取到的帧进行归一化和数据增强后，作为训练集和测试集；
(2)构建时序行为检测模型；
所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；
所述特征提取模块，用于对输入图片进行提取特征，得到特征图；所述长时信息编码模块，用于对所述特征图进行编码，得到包含长时间信息的特征；所述行为识别模块，用于根据所述长时间信息的特征进行动作识别和定位；
(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练；
(4)将待检测视频输入训练好的时序行为检测模型进行检测，得到视频中存在的行为类别，以及与行为对应的起始位置和结束位置。

2.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，经过所述长时信息编码模块编码的特征表示为：

其中，Vi代表编码的第i个特征，wij是可学习的权重，Lt是编码长度，fi表示输入的第i个特征。

3.根据权利要求2所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。

4.根据权利要求3所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述卷积层的卷积核大小为Le×1×1；
其中，Le＝2*Lf-1，Lf表示时序长度。

5.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，经过所述长时信息编码模块编...

【专利技术属性】
技术研发人员：桑农，张士伟，马百腾，高常鑫，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人