利用卷积双向自注意网络解决开放长格式视频问答的方法技术

技术编号:21399063 阅读:26 留言:0更新日期:2019-06-19 07:01
本发明专利技术公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法,主要包括如下步骤:1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案;2)训练得到最终的卷积双向自注意网络模型,利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案,本发明专利技术利用了卷积自注意力机制,能够更好地完成开放长格式视频问答任务。本发明专利技术在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。

【技术实现步骤摘要】
利用卷积双向自注意网络解决开放长格式视频问答的方法
本专利技术涉及开放长格式视频问答任务,尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。
技术介绍
开放长格式视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,回答用户提出的问题,并且用户的提问对象一般是较长的视频,用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务,对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法,主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好。为了解决上述问题,本专利技术利用卷积双向自注意网络来解决开放长格式视频问答任务,提高开放长格式视频问答任务形成答案文本的准确性。
技术实现思路
本专利技术的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好的问题,本专利技术提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本专利技术所采用的具体技术方案是:利用卷积双向自注意网络解决开放长格式视频问答的方法,包含如下步骤:1.设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。2.设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达。3.设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2获取的最终多流视频语义表达,得到开放长格式视频问答的结果。上述步骤可具体采用如下实现方式:对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达v={v1',v2',...,vn'}。对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'}。对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为输出序列表达为输入序列表达按照如下公式计算得到输出序列表达,其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,代表按元素相乘操作,δ()代表sigmoid函数计算。将获得的带有位置信息的视频帧表达v={v1',v2',...,vn'}输入到L层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得帧级别的视频语义表达将获得的带有位置信息的问题文本表达q={q1',q2',...,qn'}输入到K层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达利用得到的帧级别的视频语义表达与单词级别的问题语义表达按照如下公式计算得到视频问题注意力矩阵S,其中,代表可训练的参数矩阵,bs代表可训练的偏置向量,代表参数向量ws的转置,代表视频问题注意力矩阵S中的第i行第j列的值。按照如下公式计算得到自注意力矩阵D,D=S·ST利用得到的自注意力矩阵D,分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素与取值如下,利用得到的正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,及帧级别的视频语义表达按照如下公式计算得到视频每一帧的正向自注意力表达与视频每一帧的负向自注意力表达利用得到的视频每一帧的正向自注意力表达视频每一帧的负向自注意力表达与帧级别的视频语义表达利用如下计算方法,得到最终多流视频语义表达其中Wf、Wg为可训练的参数矩阵,bf、bg为可训练的参数偏置向量,δ()代表sigmoid函数计算,代表按元素相乘操作。设计一种卷积多步骤注意力解码器网络模型,该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,其中,第z个卷积注意力序列层的输入为序列表达利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,代表按元素相乘操作。利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出平均池化操作后得到全局问题表达hQ与最终多流视频语义表达按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出其中,为可训练的参数矩阵,bz为可训练的参数偏置向量,为第z个卷积注意力序列层中注意力层的输出中第i个向量。利用如上方法,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出按照如下公式计算得到所预测答案每个步骤的单词输出,其中,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。代表所预测答案中第i个单词的取值概率,将预测概率分数高的单词取出作为所预测答案中的第i个单词。按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,可以获得开放长格式视频问答任务的预测答案。附图说明图1是根据本专利技术的一实施例的用于解决开放长格式视频问答任务的卷积双向自注意网络的整体示意图。具体实施方式下面结合附图和具体实施方式对本专利技术做进一步阐述和说明。如图1所示,本专利技术利用卷积双向自注意网络解决开放长格式视频问答的方法包括如下步骤:1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模本文档来自技高网...

【技术保护点】
1.利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,包括如下步骤:1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果。

【技术特征摘要】
1.利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,包括如下步骤:1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果。2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤1)具体为:对于输入堆叠卷积序列模型的序列,与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度;对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数;将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达v={v1',v2',...,vn'};对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数;将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'};对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为输出序列表达为输入序列表达按照如下公式计算得到输出序列表达,其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,代表按元素相乘操作,δ()代表sigmoid函数计算;将获得的带有位置信息的视频帧表达v={v1',v2',...,vn'}输入到L层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得帧级别的视频语义表达将获得的带有位置信息的问题文本表达q={q1',q2',...,qn'}输入到K层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的...

【专利技术属性】
技术研发人员:赵洲
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1