一种基于三重编码的弱监督行为识别定位方法和装置制造方法及图纸

技术编号:22642867 阅读:46 留言:0更新日期:2019-11-26 16:26
本发明专利技术公开了一种基于三重编码的弱监督行为识别定位方法和装置。本方法为:利用训练样本集训练一个分类器以及编码器‑解码器架构中的编码器和解码器:其中,首先提取每对长视频和短视频的特征并输入到解码器,重构视频特征并计算重构损失函数对网络参数进行更新,另一方面将提取特征输入到自注意力模块,提取自注意力特征及权重;如何将自注意力特征输入到分类器进行分类,得到视频分类结果;测试阶段,利用训练好编码器‑解码器架构提取视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果,计算得到该视频的T‑CAM值;然后根据T‑CAM值将视频中的动作与背景区分开,并得到动作发生的时间段。

A method and device of weak supervision behavior recognition based on triple coding

The invention discloses a weak supervision behavior recognition and positioning method and device based on triple coding. This method is to train a classifier and the encoder and decoder in the encoder \u2011 decoder architecture by using the training sample set: firstly, extract the features of each pair of long video and short video and input them into the decoder, reconstruct the video features and calculate the reconstruction loss function to update the network parameters, on the other hand, input the extracted features into the self attention module and extract self attention Force feature and weight; how to input self attention feature into classifier for classification and get the video classification result; in the test stage, use the trained encoder decoder architecture to extract the video self attention feature and its weight, then use the trained classifier to get the video classification result and calculate the t \u2011 cam value of the video; then use the t \u2011 cam value to The action in the video is distinguished from the background, and the time period of the action is obtained.

【技术实现步骤摘要】
一种基于三重编码的弱监督行为识别定位方法和装置
本专利技术属于视频分析领域,涉及视频行为识别和检测技术,具体涉及一种基于三重编码的弱监督行为识别定位方法和装置。
技术介绍
视频行为识别和检测技术,是视频分析的主要分支之一。视频分析就是使用计算机图像视觉分析技术,通过将场景中背景和目标分离进而分析并追踪载摄像机场景内目标。由于互联网视频数据的不断涌现,视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别,行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而,大多数现实世界的视频都是长视频,并且包含多个动作实例,同时包含不相关的背景场景和活动。因此,学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例,包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。行为检测可以看作是每一张图像进行目标检测的时序版本,单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行,这些模型采用的是通过对边界的候选区域进行分类以及检测的框架。受到R-CNN的启发,很多时序行为检测的方法采用相似的框架,对候选区域方法生成的时序动作实例进行分类,或者使用简单的滑动窗口的方法。这些框架有很多局限性:首先,候选区域的生成和分类模型是分别进行训练的;其次,候选区域生成方法或者滑动窗口方法需要额外的时间消耗;由滑动窗口方法产生的动作实例的时序动作边界通常是近似的,而不是精确的;同时,因为滑动窗口的尺度大小不一致,对于预测各种各样尺度的实例也不灵活;对大量训练数据进行时序标注需要耗费大量时间。
技术实现思路
本专利技术的目的在于提供一种基于三重编码的弱监督行为识别定位方法和装置,利用额外的短视频特征信息,进行知识迁移,在这个过程中,仅仅利用长视频和短视频的视频级别的标注信息,不用长视频的时序标签,使用弱监督学习提高长视频的行为识别和定位能力。本专利技术首先使用ResNet101对长视频和短视频分别提取RGB特征和光流特征,即视频级别的特征,然后对于每一种视频类型的特征,输入到三种编码器中,从编码器出来的特征一方面输入解码器,对短视频和长视频的特征进行重建,另一方面输入自注意力模块,得到自注意力特征,进一步进行行为识别和检测。本专利技术采用的技术方案如下:一种基于三重编码的弱监督行为识别定位方法,包括以下步骤:1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。进一步地,所述提取长视频和短视频的特征包括RGB特征和光流特征。进一步地,采用ResNet101网络提取长视频和短视频的特征。进一步的,在编码器-解码器框架下,使用一个三元组编码器{Ep,t,Es,Ep,u},进一步提取视频特征的隐向量;Ep,t是对短视频的特征进行编码,即短视频专有特征编码器;Es是对长视频和短视频公有的特征进行编码,即长视频短视频公有特征编码器;Ep,u是对长视频专有的特征进行编码,即长视频专有特征编码器。所述提取的视频特征的隐向量包括:a)对于长视频特征,将该特征分别输入到Es、Ep,u,得到长视频特有的特征和公共的特征;长视频的特有特征包括背景特征和低维视频统计特征;公共的特征包括映射到公共子空间中的高维视频特征。b)对于短视频特征,将该特征分别输入到Ep,t,Es,得到短视频特有的特征和公共的特征;短视频的特有特征包括背景特征和低维视频统计特征;公共的特征包括映射到公共子空间中的高维视频特征。对于同一种视频(长视频或者短视频),得到特有的特征和公共的特征之后,在输入到解码器之前,需要将同一类视频的每一个视频的特有特征和公共特征结合,对两种特征进行特征融合作为解码器的输入。将提取的视频特征的隐向量输入到解码器以及输入到自注意力模块。进一步地,将隐向量输入到解码器是为了重建视频特征;解码器对编码器得到的视频特征进行解码,将编码的特征大小恢复到输入到编码器的特征大小,计算重建损失函数,对编码器-解码器架构的网络参数进行优化。输入到解码器中的隐向量包括提取长视频和短视频得到的特有特征和公共特征。进一步地,将隐向量输入到自注意力模块是为了提取自注意力特征进行行为识别并且根据得到的自注意力权重进行行为定位。自注意力模块对输入的隐向量进行如下操作:首先对隐向量进行特征维度变换,经过tanh激活函数后再经过维度变换,输入到softmax里对隐向量进行归一化操作,得到自注意力权重向量,用编码器得到的视频隐向量特征表示与自注意力权重向量相乘,得到自注意力特征。进一步地,得到的自注意力权重是每一帧的权重。进一步地,根据得到的自注意力的权重和对视频的分类结果相乘,得到每一个视频的向量表示;得到的视频向量用来进行视频分类(动作识别),视频的分类结果根据softmax的分类结果得到,在训练的时候给定视频标签,然后分类的时候softmax的输出是一个N维向量,N代表视频的类别数,每一个类别对应一个序号,最大值就代表视频属于对应的类别,从而可以得到视频的分类结果。进一步地,为了得到更加精确的动作时间段,计算T-CAM(时序类别激活映射)值,将RGB和光流的信息都融合进来,得到最终的行为定位的结果。进行行为定位的原理是:得到的自注意力权重向量,每一个值代表一帧的权重,设置阈值,根据权重大小判断是视频动作还是背景,因为视频背景的自注意力权重肯定比视频中动作的权重小,根据这一个判定准则,就可以筛选出连续动作的帧片段,进行动作定位。T-CAM值的计算方法为:首先将输入到softmax的特征矩阵与编码器得到的特征矩阵相乘,得到维度转换后的特征矩阵;然后本文档来自技高网
...

【技术保护点】
1.一种基于三重编码的弱监督行为识别定位方法,其步骤包括:/n1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;/n2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。/n...

【技术特征摘要】
1.一种基于三重编码的弱监督行为识别定位方法,其步骤包括:
1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器:其中,对于训练样本集中每一对长视频和短视频;首先提取该对长视频和短视频的特征;训练样本集中包括多对长视频和短视频,同一对长视频和短视频属于同一视频;然后将长视频的特征输入编码器提取长视频特征的隐向量,将短视频的特征输入编码器提取短视频特征的隐向量;然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新,将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新;将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重,将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重;然后将得到的自注意力特征输入到分类器进行分类,得到长视频的视频分类结果和短视频的视频分类结果;
2)测试阶段,对于一待处理的视频,利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重,然后利用训练好的分类器获取该视频的视频分类结果;然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值;然后根据该视频的T-CAM值将该视频中的动作与背景区分开,并得到该视频中动作发生的时间段。


2.如权利要求1所述的方法,其特征在于,所述特征包括RGB特征和光流特征。


3.如权利要求1或2所述的方法,其特征在于,采用ResNet101网络提取长视频和短视频的特征。


4.如权利要求1所述的方法,其特征在于,提取长视频特征的隐向量的方法为:首先将长视频特征分别输入到编码器Es、Ep,u,得到长视频的特有特征和公共特征;然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,u是对长视频的特有特征进行编码的特征编码器。


5.如权利要求1所述的方法,其特征在于,提取短视频特征的隐向量的方法为:首先将短视频特征分别输入到编码器Es、Ep,t,得到短视频的特有特征和公共特征;然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量;其中,Es是对公共特征进行编码的特征编码器,Ep,t是对短视频的特有特征进行编码的特征编码器。


6.如权利要求1所述的方法,其特征在于,根据得到视频的T-CAM值将该视频中的动作与背景区分开,将超过设定阈值位置保留,...

【专利技术属性】
技术研发人员:张晓宇石海超
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1