多粒度卷积自注意力上下文网络解决视频对话任务的方法技术

技术编号:21299158 阅读:33 留言:0更新日期:2019-06-12 07:49
本发明专利技术公开了一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。主要包括如下步骤:1)针对于所给视频、对话历史及当轮问题,获取含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达。2)利用得到的含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达,获取当轮回答。相比于一般的视频问答解决方案,本发明专利技术利用了多粒度卷积自注意力上下文网络模型,能够更好地克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题。本发明专利技术在视频对话任务中所取得的效果相比于传统的方法更好。

Multi-granularity Convolutional Self-attention Context Network for Video Dialogue Tasks

The invention discloses a method for solving video conversation tasks by using multi-granularity convolution self-attention context network. It mainly includes the following steps: 1) For the given videos, dialogue history and the current round of questions, we can obtain the current round of questions with dialogue context information and the video expression with dialogue context information. 2) To get the answer in turn, we use the video expression which contains the context information of the dialogue and the question expression which contains the context information of the dialogue. Compared with the general video question answering solution, the present invention utilizes a multi-granularity convolutional self-attention context network model, which can better overcome the problem that the existing technology can not be directly applied to solve the video dialogue task due to the lack of information processing for the dialogue context. The effect of the present invention in video dialogue task is better than that of the traditional method.

【技术实现步骤摘要】
多粒度卷积自注意力上下文网络解决视频对话任务的方法
本专利技术涉及视频对话任务,尤其涉及一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。
技术介绍
视频对话任务可以被看做为视觉问答任务的拓展,在该任务中需要对话系统可以针对于某个特定视频的内容,持续与人类进行自然语言形式的对话。与以往的视觉问答任务不同的是,视觉问答任务中的各个问题为相互独立的问题,而视频对话任务中对话系统需要回答的问题与之前的对话上下文有关。目前大多数的视觉问答任务只关注处理静态的图像信息,然而视频是我们日常生活中常见的信息载体形式,所以将视觉问答任务拓展到视频对话任务十分必要。准确地说,视频对话任务是针对于给定的视频、对话历史和人类用户的每一轮的对话问题,对话系统可以将视频信息与对话历史中的上下文信息结合起来,回答人类用户的对话问题。虽然视觉问答任务与视频对话任务很相似,但是由于视频中存在的隐含时间结构信息,并且视觉问答任务解决方法缺乏了对于关键的对话上下文的处理,目前的视觉问答任务的方法不能被直接运用于解决视频对话任务。此外在对话上下文处理时,对话上下文中的序列化与各轮对话相互依赖特性的使用也十分关键。目前,对于序列化形式的数据,一般采用循环神经网络的处理方式。并且为了解决基础循环神经网络中存在的梯度消失问题,利用长短时记忆神经网络来提高对于序列化形式数据的处理效果。但是长短时记忆神经网络仍然会存在消耗时间过长的问题。为了弥补此问题,本专利技术使用多粒度卷积神经网络来进行序列化形式数据的处理。同时本专利技术利用自注意力机制来提高对话系统对于对话上下文的表达效果。
技术实现思路
本专利技术的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题,本专利技术提供一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。本专利技术所采用的具体技术方案是:利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,包含如下步骤:1.设计一种多粒度卷积自注意力处理机制来对于视频、对话信息进行编码处理。2.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达。3.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达。4.利用步骤2获得的含有对话上下文信息的当轮问题表达与步骤3获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案。5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。上述步骤可具体采用如下实现方式:1.设计一种多粒度卷积自注意力处理机制,该机制可以在对于视频、对话信息进行编码处理时,加入时间信息。多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:Yi=Attention(Xi,Xi,Xi),其中i=1,2,...,k,d为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P'=(p1',p'2,...,p'k),P'=Attention(P,P,P),其中d为压缩序列表达P的维度;将获得的压缩序列表达P与含有自注意力互动信息的序列表达P'按照如下公式计算出混合输出序列表达Z'=(z′1,z'2,...,z'k),其中,σ()代表sigmoid函数,代表以元素方式相乘,代表权重矩阵,bg代表偏置向量,S1代表门比例值;将获得的混合输出序列表达Z'=(z′1,z'2,...,z'k)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O,其中,σ()代表sigmoid函数,代表以元素方式相乘,tanh()代表双曲正切函数,Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。2.设计一种分层对话历史编码器,该分层对话历史编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制,获取含有对话历史信息的问题的表达。对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达f(xi)=W1σ(W2xi+b1)+b2其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问题或第i轮答案对应的问题或答案的自注意力句子表达将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达利用如下公式,计算得到第i轮对话的混合表达ci,其中,tanh()代表双曲正切函数,代表权重矩阵;对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu,qu=q+uq其中,tanh()代表双曲正切函数,代表权重矩阵,bqu代表偏本文档来自技高网...

【技术保护点】
1.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。

【技术特征摘要】
2019.01.22 CN 20191006004501.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。2.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤1),具体为:多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:Yi=Attention(Xi,Xi,Xi),其中i=1,2,...,k,d为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P'=(p′1,p′2,...,p′k),P'=Attention(P,P,P),其中d为压缩序列表达P的维度;将获得的压缩序列表达P与含有自注意力互动信息的序列表达P'按照如下公式计算出混合输出序列表达Z'=(z′1,z′2,...,z′k),其中,σ()代表sigmoid函数,代表以元素方式相乘,代表权重矩阵,bg代表偏置向量,S1代表门比例值;将获得的混合输出序列表达Z'=(z′1,z′2,...,z′k)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O,其中,σ()代表sigmoid函数,代表以元素方式相乘,tanh()代表双曲正切函数,Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。3.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤2),具体为...

【专利技术属性】
技术研发人员:赵洲张易诚
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1