当前位置: 首页 > 专利查询>浙江大学专利>正文

利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统技术方案

技术编号:25398432 阅读:58 留言:0更新日期:2020-08-25 23:03
本发明专利技术公开了一种利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统。包括步骤:给出一段视频,从视频中提取不同帧的区域特征,从中提取动态信息;给出查询语句,借助Bi‑GRU和NLTK库学习对象在句子上下文中的特征;构建对象感知多分支关系网络,使用对象感知调制着重增强对象相关的区域特征,削弱不相关的区域特征,进而实现对象‑区域的跨模型匹配;使用多分支关系推理,捕获主要分支和辅助分支中关键对象的联系;提出一种多样性损失的计算方法,保证不同分支重点关注其对应的对象关联的区域。使用采样方法得到多个视频片段,选出时间置信度得分最高的片段,再从其中选出空间得分最高的区域生成目标管道。

【技术实现步骤摘要】
利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统
本专利技术涉及视频中指定对象定位领域,尤其涉及一种利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统。
技术介绍
视频中指定对象定位(Spatio-temporalvideogrounding)是一种用于连接计算机视觉(CV)和自然语言处理(NLP)的任务,给定一个描述对象的句子,在视频中检索描述对象的时空管道,即生成边界框。近年来,人们在此领域做了很多工作。但是,大多数现有定位方法仅限于对齐良好的句子-视频片段对。视频中指定对象定位是跨模式理解领域中的一项新兴任务。目前已有的大多数方法仅限于对齐良好的句子-视频片段对,即视频片段已经从完整的视频中剪辑出来,与句子在时间上对齐。最近,已有研究人员开始探索基于未对齐数据和多种形式句子的视频中指定对象定位问题。具体来说,句子形式可以为陈述句或疑问句,句子中可以描述一段时间内查询对象与其他辅助对象之间的关系,如“小孩踢皮球”描述了主要对象(小孩)与辅助对象(皮球)在一段时间内的运动关系。因此,此任务本文档来自技高网...

【技术保护点】
1.利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,其特征在于,包括如下步骤:/nS1:针对一段视频,从视频中提取不同帧的区域特征,并计算视频帧中任一区域特征与相邻区间内的视频帧中所有区域特征之间的关联分数;提取相邻区间内的每一个视频帧中具有最高匹配分数的区域特征作为匹配区域特征,将视频帧中任一区域特征与其匹配区域特征进行平均池化,得到视频帧的动态区域特征;/nS2:针对查询语句,首先采用Bi-GRU网络得到查询语句中所有单词的语义特征集合,并从语义特征集合中提取出名词的语义特征;然后采用注意力方法进一步得到查询语句中的对象特征;/nS3:构建对象感知多分支关系网络,所述的对象感知...

【技术特征摘要】
1.利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,从视频中提取不同帧的区域特征,并计算视频帧中任一区域特征与相邻区间内的视频帧中所有区域特征之间的关联分数;提取相邻区间内的每一个视频帧中具有最高匹配分数的区域特征作为匹配区域特征,将视频帧中任一区域特征与其匹配区域特征进行平均池化,得到视频帧的动态区域特征;
S2:针对查询语句,首先采用Bi-GRU网络得到查询语句中所有单词的语义特征集合,并从语义特征集合中提取出名词的语义特征;然后采用注意力方法进一步得到查询语句中的对象特征;
S3:构建对象感知多分支关系网络,所述的对象感知多分支关系网络由一个主要分支、T-1个辅助分支和多分支关系推理模块构成,每一个分支均包括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层;
首先将步骤S1中得到的视频帧的动态区域特征和步骤S2得到的查询语句中的第t个对象特征作为第t个分支的对象感知调制层的输入,得到视频中区域的对象感知区域特征,其中t=1时表示主要分支,t∈{2,3,…T}时表示辅助分支;然后通过跨模态匹配层计算视频中区域的对象感知区域特征与查询语句中的对象特征之间的匹配分数,并通过softmax函数层对匹配分数进行处理;最后将主要分支和T-1个辅助分支输出的视频中区域的对象感知区域特征和经softmax函数处理后的匹配分数作为多分支关系推理模块的输入,得到区域的对象感知多分支特征;
S4:建立空间-时间定位器,包括一个空间定位器和一个时间定位器;
S5:设计一个多任务损失函数为:



其中,λ1,λ2,λ3,λ4调控四种损失之间平衡的超参数,表示空间定位器的损失函数,表示时间定位器的对齐损失函数,表示时间定位器的回归损失函数,表示对象感知多分支关系网络的多样性损失函数;根据多任务损失函数,以端到端的方式进行训练对象感知多分支关系网络和空间-时间定位器;
S6:针对待处理的一段视频和查询语句,首先经步骤S1和S2进行预处理,再将得到的视频帧的动态区域特征和查询语句中的对象特征作为训练好的对象感知多分支关系网络的输入,并将其输出作为训练好的空间-时间定位器的输入,将多任务损失函数最小值对应的区域作为最终的结果输出。


2.如权利要求1所述的利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,其特征在于所述步骤S1具体为:
对于一段视频,通过预训练FasterR-CNN模型提取区域特征其中N表示视频总帧数,K表示每帧视频中的区域个数,表示视频第n帧中的第k个区域的特征值,对应区域的空间位置使用边框表示,其中表示视频第n帧第k个区域的中心坐标,表示视频第n帧第k个区域的宽和高;
采用时间区域聚合的方法,针对视频帧中的任一区域特征将其前L帧与后L帧作为一个视频帧集合,计算视频帧集合中的任一区域特征与之间的关联分数,计算公式为:



其中,和分别表示第l个视频帧第j个区域特征和空间位置,l∈[n-L,n+L],IoU(·)表示两个区域边框的IoU分数,α表示平衡系数;
将视频帧集合的每一个视频帧中与关联分数最高的区域特征作为的匹配区域特征,将与提取到的2L个匹配区域特征进行平均池化,得到动态区域特征


3.如权利要求1所述的利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,其特征在于所述步骤S2具体为:
针对查询语句,首先采用Bi-GRU网络得到查询语句中单词的语义特征集合其中sm表示查询语句中第m个单词的语义特征,M表示查询语句中的单词数量;
采用NLTK工具标注查询语句中的所有名词作为查询语句中的对象,从查询语句中单词的语义特征集合中提取出查询语句中的对象的语义特征通过注意力方法聚合查询语句中的每个对象的上下文,得到查询语句中的对象特征,计算公式如下:









其中,表示投影矩阵,bs表示偏置向量,表示行向量,βt,m表示查询语句中第m个单词对查询语句中第t个对象的注意力权重,ot表示查询语句中的第t个对象特征,构成对象特征集合T表示查询语句中的对象数量o1表示主要对象特征,{o2,…,ot}表示辅助对象特征。


4.如权利要求1所述的利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,其特征在于所述步骤S3具体为:
3.1)构建对象感知多分支关系网络,所述的对象感知多分支关系网络由一个主要分支、T-1个辅助分支和多分支关系推理模块构成,每一个分支均包括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层;
3.2)将步骤S1得到的区域特征和查询语句中的对象特征ot一起作为第t个分支的输入,通过每一个分支的对象感知调制层计算得到对象感知区域特征,公式为:
γt=tanh(Wγot+bγ)
δt=tanh(Wδot+bδ)



其中,Wγ,Wδ,bγ,bδ是参数矩阵和偏置向量,γt表示对应查询语句中的第t个对象的调制门,δt表示查询语句中的第t个对象的偏置向量;⊙表示逐个元素相乘,表示第t分支的第n个视频帧第k个区域的对象感知区域特征;
3.3)通过跨模态匹配层,计算视频中区域的对象感知区域特征与查询语句中的对象特征之间的匹配分数,公式如下:



其中,表示行向量,Wc表示参数矩阵,bc表示参数向量,表示第n个视频帧第k个区域与查询语句中的第t个对象的匹配分数;再通过softmax函数层对进行处理,得到构成集合
3.4)将主要分支和T-1个辅助分支输出的经softmax函数处理后的匹配分数以及对象感知区域特征作为多分支关系推理模块的输入,得到区域的对象感知多分支特征具体为:
3.4.1)计算主要分支的视频帧中任一区域与T-1个辅助分支的视频帧中任一区域之间的注意力权重,计算公式为:



其中,表示主要分支的第n个视频帧第k个区域的对象感知区域特征,...

【专利技术属性】
技术研发人员:赵洲路伊琳张竹
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1