一种利用分层注意力上下文网络解决多轮视频问答的方法技术

技术编号:19480100 阅读:35 留言:0更新日期:2018-11-17 10:32
本发明专利技术公开了一种利用分层注意力上下文网络解决多轮视频问答的方法。主要包括如下步骤:1)针对于一组多轮问答上下文及当前问题,结合上下文学习出问题的结合对话上下文的一致性表达。2)利用学习出的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达。3)利用循环迭代的方法,获取最终的结合问题语义的视频表达,利用该表达获取最终的问题答案。相比于一般的多轮视频问答解决方案,本发明专利技术利用时间及空间注意力机制更好地反映了视频、上下文与所问问题之间的相关关系,能够更准确地反映视频、对话上下文和问题的特性,并产生更加符合要求的答案。本发明专利技术在多轮视频问答问题中所取得的效果相比于已有的方法更好。

【技术实现步骤摘要】
一种利用分层注意力上下文网络解决多轮视频问答的方法
本专利技术涉及视频多轮问答文本生成,尤其涉及一种利用分层注意力上下文网络解决多轮视频问答的方法。
技术介绍
多轮视频问答问题是视频问答领域中的一个重要问题,该问题的目标是针对于相关的视频及上下文信息,结合最近给出的问题,自动生成答案。现有的技术主要解决的是单轮视频问答问题,针对于多轮视频问答问题,采用的方法是简单地把单轮视频问答方法迁移到多轮视频问答上。虽然针对于单轮视频问答,可以取得很好的表现结果,但是这样的方法并不能很好地利用多轮视频问答中已有的上下文信息,所以不能取得较为满意的效果。利用分层注意力上下文网络则能很好地弥补上述解决方案的不足。本方法将利用带有注意力机制的多层循环神经网络对对话上下文信息中的序列关系及与所问问题相关的重要信息进行建模,随后利用带有时空注意力机制的分层神经网络学习视频内容及带有上下文信息的问题映射的联合表达,之后本方法利用该表达结合分层注意力网络来综合地学习视频中关键帧序列及所问问题,随后通过多步的推理过程获取最终的问题答案。
技术实现思路
本专利技术的目的在于解决现有技术中的问题,为了克服现有技术中无法本文档来自技高网...

【技术保护点】
1.一种利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于包括如下步骤:1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达;2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达;3)利用循环迭代的方法,对于步骤1)‑2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达;4)对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案。

【技术特征摘要】
1.一种利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于包括如下步骤:1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达;2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达;3)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达;4)对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案。2.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达,其具体步骤为:1.1)对于给出的上下文数据u中第k轮的问题和答案,分别输入LSTM网络中,获取对应的问题表达和答案表达之后利用如下公式所示的问题答案对混合表达机制,结合问题表达和答案表达获取上下文数据u中第k轮上下文的混合表达uk:其中,W(q)和W(a)是参数矩阵,+代表按元素相加,g(.)代表按元素进行双曲正切函数计算;按照此方法,可以获取上下文数据u中每一轮问答的混合表达u=(u1,u2,...,uM);将每一轮的混合表达依次输入LSTM网络中,获取对应于每一轮表达的映射其中M为上下文数据中的问答轮数;1.2)利用问题文本q,输入到LSTM网络中,获得问题的表达h(q),结合步骤1获得的上下文数据每一轮表达的映射按照如下公式计算问题文本q针对上下文数据中第i轮问答的注意力分数值其中,W(q)和W(u)是参数矩阵,为偏置向量,w(q,u)为计算注意力分数的系数向量;针对于上下文中的每一轮数据,均可按照上述公式计算出注意力分数值按照如下公式计算出对于上下文对话中第i轮混合表达ui对应的softmax激活系数则利用上下文对话中每一轮表达的映射及混合表达对应的softmax激活系数计算出结合对话上下文的问题表达为则结合对话上下文的问题的一致性表达为3.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达,其具体步骤为:2.1)利用2维卷积神经网络,针对于视频v的每一帧,获取其帧级别的特征表达其中T(f)为视频的帧数,为第i帧的区域特征集合;在第i帧的区域特征集合中,为候选区域特征,为整体帧特征;利用第i帧的第j区域特征及步骤1.2)得到的结合上下文的问题的一致性表达按照如下公式计算第i帧第j区域对应的空间注意力分数其中,和W(r)是参数矩阵,为偏置向量,w(q,r)为计算注意力分数的系数向量;针...

【专利技术属性】
技术研发人员:俞新荣
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1