利用卷积双向自注意网络解决开放长格式视频问答的方法技术

技术编号：21399063 阅读：26 留言：0更新日期：2019-06-19 07:01

本发明专利技术公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法，主要包括如下步骤：1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案；2)训练得到最终的卷积双向自注意网络模型，利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案，本发明专利技术利用了卷积自注意力机制，能够更好地完成开放长格式视频问答任务。本发明专利技术在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。

全部详细技术资料下载

【技术实现步骤摘要】
利用卷积双向自注意网络解决开放长格式视频问答的方法
本专利技术涉及开放长格式视频问答任务，尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。
技术介绍
开放长格式视频问答任务是一项十分有挑战性的任务，目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频，回答用户提出的问题，并且用户的提问对象一般是较长的视频，用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务，对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法，主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模，对开放长格式视频问答任务的解决效果不好。为了解决上述问题，本专利技术利用卷积双向自注意网络来解决开放长格式视频问答任务，提高开放长格式视频问答任务形成答案文本的准确性。
技术实现思路
本专利技术的目的在于解决现有技术中的问题，为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模，对开放长格式视频问答任务的解决效果不好的问题，本专利技术提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本专利技术所采用的具体技术方案是：利用卷积双向自注意网络解决开放长格式视频问答的方法，包含如下步骤：1.设计一种堆叠卷积序列模型，利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。2.设计一种双向问题自注意力模型，利用该双向问题自注意力模型结合步骤...

【技术保护点】
1.利用卷积双向自注意网络解决开放长格式视频问答的方法，其特征在于，包括如下步骤：1)设计一种堆叠卷积序列模型，利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达；2)设计一种双向问题自注意力模型，利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达，获取最终多流视频语义表达；3)设计卷积多步骤注意力解码器网络模型，利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达，得到开放长格式视频问答的结果。

【技术特征摘要】
1.利用卷积双向自注意网络解决开放长格式视频问答的方法，其特征在于，包括如下步骤：1)设计一种堆叠卷积序列模型，利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达；2)设计一种双向问题自注意力模型，利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达，获取最终多流视频语义表达；3)设计卷积多步骤注意力解码器网络模型，利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达，得到开放长格式视频问答的结果。2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法，其特征在于，所述步骤1)具体为：对于输入堆叠卷积序列模型的序列，与位置时间信号相加，获得带有位置信息的输入序列，位置时间信号计算方法如下列公式所示，其中，t代表计算位置时间信号中的第t个元素，i代表位置时间信号中的第t个元素的维度索引，timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法，timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法，d代表位置时间信号中的每个位置元素的维度；对于开放长格式视频问答任务的视频帧，利用训练好的ConvNet网络获取视频中的帧表达特征v＝{v1,v2,...,vn}，其中n代表视频中含有的视频帧个数；将获取的视频中的帧表达特征v＝{v1,v2,...,vn}与计算得到的视频元素位置时间信号相加，获得带有位置信息的视频帧表达v＝{v1',v2',...,vn'}；对于开放长格式视频问答任务的问题文本，输入到文本编码网络中，获取单词级别的问题表达q＝(q1,q2,...,qr)，其中r代表问题中含有的单词个数；将获取的单词级别的问题表达q＝(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加，获得带有位置信息的问题文本表达q＝{q1',q2',...,qn'}；对于堆叠卷积序列模型中第l个卷积序列层，其输入序列表达为输出序列表达为输入序列表达按照如下公式计算得到输出序列表达，其中，A代表2d维向量[A,B]中的前d维度元素值构成的向量，B代表2d维向量[A,B]中的后d维度元素值构成的向量，代表按元素相乘操作，δ()代表sigmoid函数计算；将获得的带有位置信息的视频帧表达v＝{v1',v2',...,vn'}输入到L层堆叠的卷积序列模型中，上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入，获得帧级别的视频语义表达将获得的带有位置信息的问题文本表达q＝{q1',q2',...,qn'}输入到K层堆叠的卷积序列模型中，上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的...

【专利技术属性】
技术研发人员：赵洲，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人