The invention discloses a weak supervision behavior recognition and positioning method and device based on triple coding. This method is to train a classifier and the encoder and decoder in the encoder \u2011 decoder architecture by using the training sample set: firstly, extract the features of each pair of long video and short video and input them into the decoder, reconstruct the video features and calculate the reconstruction loss function to update the network parameters, on the other hand, input the extracted features into the self attention module and extract self attention Force feature and weight; how to input self attention feature into classifier for classification and get the video classification result; in the test stage, use the trained encoder decoder architecture to extract the video self attention feature and its weight, then use the trained classifier to get the video classification result and calculate the t \u2011 cam value of the video; then use the t \u2011 cam value to The action in the video is distinguished from the background, and the time period of the action is obtained.
【技术实现步骤摘要】
一种基于三重编码的弱监督行为识别定位方法和装置
本专利技术属于视频分析领域,涉及视频行为识别和检测技术,具体涉及一种基于三重编码的弱监督行为识别定位方法和装置。
技术介绍
视频行为识别和检测技术,是视频分析的主要分支之一。视频分析就是使用计算机图像视觉分析技术,通过将场景中背景和目标分离进而分析并追踪载摄像机场景内目标。由于互联网视频数据的不断涌现,视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别,行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而,大多数现实世界的视频都是长视频,并且包含多个动作实例,同时包含不相关的背景场景和活动。因此,学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例,包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。行为检测可以看作是每一张图像进行目标检测的时序版本,单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行,这些模型采用的是通过对边界的候选区域进行分类以及检测的框架。受到R-CNN的启发,很多时序行为检测的方法采用相似的框架,对候选区域方法生成的时序动作实例进行分类,或者使用简单的滑动窗口的方法。这些框架有很多局限性:首先,候选区域的生成和分类模型是分别进行训练的;其次,候选区域生成方法或者滑动窗口方法需要额外的时间消耗;由滑动窗口方法产 ...
【技术保护点】
1.一种基于三重编码的弱监督行为识别定位方法,其步骤包括:/n1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;/n2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根 ...
【技术特征摘要】
1.一种基于三重编码的弱监督行为识别定位方法,其步骤包括:
1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;
2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。
2.如权利要求1所述的方法,其特征在于,所述特征包括RGB特征和光流特征。
3.如权利要求1或2所述的方法,其特征在于,采用ResNet101网络提取长视频和短视频的特征。
4.如权利要求1所述的方法,其特征在于,提取长视频特征的隐向量的方法为:首先将长视频特征分别输入到编码器Es、Ep,u,得到长视频的特有特征和公共特征;然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,u是对长视频的特有特征进行编码的特征编码器。
5.如权利要求1所述的方法,其特征在于,提取短视频特征的隐向量的方法为:首先将短视频特征分别输入到编码器Es、Ep,t,得到短视频的特有特征和公共特征;然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,t是对短视频的特有特征进行编码的特征编码器。
6.如权利要求1所述的方法,其特征在于,根据得到视频的T-CAM值将该视频中的动作与背景区分开,将超过设定阈值位置保留,...
【专利技术属性】
技术研发人员:张晓宇,石海超,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。