The invention discloses a method for solving video conversation tasks by using multi-granularity convolution self-attention context network. It mainly includes the following steps: 1) For the given videos, dialogue history and the current round of questions, we can obtain the current round of questions with dialogue context information and the video expression with dialogue context information. 2) To get the answer in turn, we use the video expression which contains the context information of the dialogue and the question expression which contains the context information of the dialogue. Compared with the general video question answering solution, the present invention utilizes a multi-granularity convolutional self-attention context network model, which can better overcome the problem that the existing technology can not be directly applied to solve the video dialogue task due to the lack of information processing for the dialogue context. The effect of the present invention in video dialogue task is better than that of the traditional method.
【技术实现步骤摘要】
多粒度卷积自注意力上下文网络解决视频对话任务的方法
本专利技术涉及视频对话任务,尤其涉及一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。
技术介绍
视频对话任务可以被看做为视觉问答任务的拓展,在该任务中需要对话系统可以针对于某个特定视频的内容,持续与人类进行自然语言形式的对话。与以往的视觉问答任务不同的是,视觉问答任务中的各个问题为相互独立的问题,而视频对话任务中对话系统需要回答的问题与之前的对话上下文有关。目前大多数的视觉问答任务只关注处理静态的图像信息,然而视频是我们日常生活中常见的信息载体形式,所以将视觉问答任务拓展到视频对话任务十分必要。准确地说,视频对话任务是针对于给定的视频、对话历史和人类用户的每一轮的对话问题,对话系统可以将视频信息与对话历史中的上下文信息结合起来,回答人类用户的对话问题。虽然视觉问答任务与视频对话任务很相似,但是由于视频中存在的隐含时间结构信息,并且视觉问答任务解决方法缺乏了对于关键的对话上下文的处理,目前的视觉问答任务的方法不能被直接运用于解决视频对话任务。此外在对话上下文处理时,对话上下文中的序列化与各轮对话相互依赖特性的使用也十分关键。目前,对于序列化形式的数据,一般采用循环神经网络的处理方式。并且为了解决基础循环神经网络中存在的梯度消失问题,利用长短时记忆神经网络来提高对于序列化形式数据的处理效果。但是长短时记忆神经网络仍然会存在消耗时间过长的问题。为了弥补此问题,本专利技术使用多粒度卷积神经网络来进行序列化形式数据的处理。同时本专利技术利用自注意力机制来提高对话系统对于对话上下文的表达效果。
技术实现思路
...
【技术保护点】
1.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
【技术特征摘要】
2019.01.22 CN 20191006004501.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。2.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤1),具体为:多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:Yi=Attention(Xi,Xi,Xi),其中i=1,2,...,k,d为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P'=(p′1,p′2,...,p′k),P'=Attention(P,P,P),其中d为压缩序列表达P的维度;将获得的压缩序列表达P与含有自注意力互动信息的序列表达P'按照如下公式计算出混合输出序列表达Z'=(z′1,z′2,...,z′k),其中,σ()代表sigmoid函数,代表以元素方式相乘,代表权重矩阵,bg代表偏置向量,S1代表门比例值;将获得的混合输出序列表达Z'=(z′1,z′2,...,z′k)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O,其中,σ()代表sigmoid函数,代表以元素方式相乘,tanh()代表双曲正切函数,Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。3.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤2),具体为...
【专利技术属性】
技术研发人员:赵洲,张易诚,
申请(专利权)人:杭州一知智能科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。