当前位置: 首页 > 专利查询>浙江大学专利>正文

一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法技术

技术编号:23764796 阅读:53 留言:0更新日期:2020-04-11 19:16
本发明专利技术公开了一种利用多粒度卷积自注意网络机制来解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的VGG网络与3D‑Conv网络分别获得帧级别及分段级别视频表达。2)针对于对话历史的问题词嵌入和答案词嵌入以及新问题,使用多粒度卷积自注意网络机制以及句级别的语境注意力机制,得到问题相关的联合表达。3)使用问题级别的时间注意力机制以及融合注意力网络机制,得到问题相关的联合视频表达并产生针对视频所问问题答案。相比一般的视频问答解决方案,本发明专利技术利用了多粒度卷积自注意网络,能够结合可见信息与对话历史信息,产生更加符合要求的答案。本发明专利技术在视频问答问题中所取得的效果相比于传统方法更好。

A method to solve video question and answer by using self attention context network mechanism of multi granularity convolutional network

【技术实现步骤摘要】
一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
本专利技术涉及视频问答答案生成,尤其涉及一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法。
技术介绍
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。现有的技术主要是针对于静态图像生成相关问题的答案,取得了较好的结果,但是在视频问答的问题上仍然存在很大的挑战,如视频的可见信息与文本信息存在上下文相关性,而静态图像没有体现在这一点,忽略了很多上下文信。本专利技术使用自注意力机制来捕获语境信息,相比于现在基于RNN的编码输入信息的模型,本专利技术使用多粒度卷积自注意力机制。RNN编码信息存在梯度消失和难以并行计算的问题,本专利技术使用自注意力机制捕获上下文语境信息就不会出现梯度消失的问题,同时由于卷积网络的卷积运算可以进行并行计算,这就可以大大加快运算速度。最后,本专利技术使用了将输入信息分成多个粒度,能够获得元素级和段级的表达,能够获得更加全面的上下文信息。
技术实现思路
本专利技术的本文档来自技高网...

【技术保护点】
1.一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,包括如下步骤:/n1)针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;/n2)根据步骤1)得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;/n3)根据步骤2)获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;/n4)根据步骤2)获得的新问题的句级表达与步骤3)获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新...

【技术特征摘要】
1.一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,包括如下步骤:
1)针对一组视频的历史对话信息以及一组新问题语句,通过词嵌入分别得到历史对话的词嵌入表达和新问题语句的词嵌入表达;
2)根据步骤1)得到的历史对话的词嵌入表达和新问题语句的词嵌入表达,采用多粒度卷积自注意单元和句嵌入,分别得到历史对话的句级表达和新问题的句级表达;
3)根据步骤2)获得的历史对话的句级表达,采用联合表达机制和经遮掩后的多粒度卷积自注意单元,获得有上下文语境的历史对话表达;
4)根据步骤2)获得的新问题的句级表达与步骤3)获得的有上下文语境的历史对话表达,采用语境注意力机制,获得新问题相关的视频历史对话联合表达;
5)针对所给视频,使用预训练的VGG网络获取视频帧级别的外表特征,使用C3D网络获取视频片段级别的动作特征;采用多粒度卷积自注意单元和时间注意力机制,得到有语境意识的新问题相关的联合视频表达;
6)对于步骤5)获得的有语境意识的新问题相关的联合视频表达,利用多粒度卷积自注意单元获得视频相关问题答案候选集,经过softmax函数的分类得到针对新问题所预测的最终答案。


2.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤1)具体为:
针对一组视频的历史对话信息,通过预训练的GloVe模型获得历史对话的词嵌入表达{(q1,a1),(q2,a2),…(qN,aN)},其中(qi,ai)中的qi和ai分别表示历史第i轮对话的问题词嵌入qi与回答词嵌入ai,N表示历史对话信息中包含N轮对话;
针对新问题语句,通过预训练的GloVe模型获得新问题语句的词嵌入表达Q=[q′1,q′2,...,q′T],其中q′i表示新问题语句中的第i个单词,T表示新问题语句中的单词的数量。


3.如权利要求1所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述的多粒度卷积自注意单元包括自注意力单元、卷积层和融合层,具体包括如下步骤:
将输入序列(x1,x2,…,xn)分成k段相等长度为l的段,记为X=(X1,X2,…,Xk),其中X1=(x1,x2,…,xl),X2=(xl+1,xl+2,…,x2l),…Xk=(xkl-l+1,xkl-l+2,…,xkl)且n=k×l;
利用自注意力单元获取每段内部间的语境信息,公式如下:
Yi=Attention(Xi,Xi,Xi),i=1,2,…k



其中,Q,K,V表示自注意力单元的三个输入通道,在此处均为Xi;d为序列元素的维度;Yi是经过以自注意力单元学习后的第i段的新表达,构成了新的序列Y=(Y1,Y2,…,Yk);
将Y输入到卷积核与步长均为l的卷积层获得有每段语境特性序列P=(p1,p2,…,pk),pi表示输入序列第i段的向量表达;同理,采用自注意力单元获得有全局语境特性序列P′=(p′1,p′2,…,p′k);
联合P′和P,通过Z′=Fusion(P,P′)获得序列Z′,其中Fusion(·)表示联合函数,Z′=Fusion(P,P′)具体展开如下:






Z′=S′⊙P′+S⊙P
其中,σ表示sigmoid函数,[;]表示向量的连接,⊙表示按元素乘,为偏移向量,S,S′为0,1间是向量分数;复制序列Z′=(z′1,z′2,…,z′k)中的每个元素z′k各l次得到新序列Z=(z1,z2,…,zn);
序列X,Y,Z经过融合层学习最终得到R,公式如下:
Fyz=Fusion(Y,Z),
R=Fusion(Fyz,X)
其中,R为多粒度卷积自注意单元的输出。


4.如权利要求3所述的利用多粒度卷积网络自注意语境网络机制解决视频问答的方法,其特征在于,所述步骤2)具体为:
将历史对话的词嵌入表达输入到多粒度卷积自注意单元中,并将多粒度卷积自注意单元的输出作为句嵌入的输入,由句嵌入输出历史对话的句级表达,所述句嵌入的表达式如下:
f(x...

【专利技术属性】
技术研发人员:赵洲李国昌金韦克
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1