当前位置: 首页 > 专利查询>清华大学专利>正文

用于视频问答的动态时空模块化网络方法、装置及产品制造方法及图纸

技术编号:36073909 阅读:42 留言:0更新日期:2022-12-24 10:44
本申请实施例涉及视频问答领域,提供了一种用于视频问答的动态时空模块化网络方法、装置及产品,包括:将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列;根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种;对所述子模块序列进行结构转化,生成树状时空模块化网络,所述树状时空模块化网络用于生成所述文本问题对应的最终答案。本申请提供的方法可以明确网络结构,同时有效模拟人类的逻辑思维方式,提升视频问答任务的性能和可解释性。释性。释性。

【技术实现步骤摘要】
用于视频问答的动态时空模块化网络方法、装置及产品


[0001]本申请实施例涉及视频问答领域,具体而言,涉及一种用于视频问答的动态时空模块化网络方法、装置及产品。

技术介绍

[0002]现如今视频问答任务是多模态领域研究的热点之一,其旨在根据视频片段中包含的信息来回答问题。当前的视频问答系统主要有基于编码器

解码器结构方法的视频问答系统、基于记忆网络的方法视频问答系统、基于时空图神经网络方法的视频问答系统以及基于视频和语言预训练方法的视频问答系统。
[0003]然而,这些视频问答系统都会依赖端到端的黑盒深度神经网络进行推理从而获得答案,这与人类的逻辑推理方式相去甚远,容易导致视频问答系统缺乏解释性,以及组合问题回答能力不足等问题。因此,如何提升视频问答系统中回答组合问题的能力以及可解释性成了亟待解决的问题。

技术实现思路

[0004]本申请实施例在于提供一种用于视频问答的动态时空模块化网络方法、装置及产品,旨在解决视频问答系统中回答组合问题的能力低以及可解释性较差的问题。
[0005]本申请实施例第一方面提供一种用于视频问答的动态时空模块化网络方法,包括:
[0006]将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列;
[0007]根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种;
[0008]对所述子模块序列进行结构转化,生成树状时空模块化网络,所述树状时空模块化网络用于生成所述文本问题对应的最终答案。
[0009]可选地,在生成所述树状时空模块化网络之后,还包括:
[0010]获取视频片段中多张指定帧编号的图像表征;
[0011]将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中;
[0012]自下而上运行所述树状时空模块化网络,生成所述文本问题对应的所述最终答案。
[0013]可选地,将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列,包括:
[0014]从所述文本问题中提取问题单词;
[0015]根据每个所述问题单词的含义提取问题标签,在预设元问题分类表中,依据所述
问题标签得到每个所述问题单词对应的元问题;
[0016]将得到的多个元问题按照链式顺序组成所述问题序列。
[0017]可选地,根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,包括:
[0018]根据每个所述元问题对应的模块标签,确定每个所述元问题对应的预设模块集合,所述预设模块集合包括空间注意模块集合、时间注意模块集合、逻辑模块集合和答案模块集合;
[0019]根据每个所述元问题对应的所述模块标签,在每个所述元问题对应的预设模块集合中找到多个具有相同所述模块标签的所述子模块,作为所述元问题对应的子模块,其中,
[0020]所述空间注意模块集合包括多种所述空间注意子模块;所述时间注意模块集合包括多种所述时间注意子模块;所述逻辑模块集合包括多种所述逻辑子模块;所述答案模块集合包括多种所述答案子模块;
[0021]依据所述问题序列中的所述元问题的排序,将所述对应的子模块进行排序,得到所述子模块序列。
[0022]可选地,将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中,包括:
[0023]将所述指定帧编号的图像表征输入空间注意子模块和/或时间注意子模块中,以及,将所述元问题输入所述树状时空模块化网络中的所述空间注意子模块、所述时间注意子模块、所述逻辑子模块和所述答案子模块中;
[0024]其中,
[0025]所述空间注意子模块用于处理每张所述指定帧编号图像中的注意力关系;
[0026]所述时间注意子模块用于处理所有所述指定帧编号图像的注意力之间的关系;
[0027]所述逻辑子模块用于处理所述元问题之间的逻辑关系;
[0028]所述答案子模块用于生成所述文本问题对应的所述最终答案。
[0029]可选地,自下而上运行所述树状时空模块化网络,生成所述文本问题对应的最终答案,包括:
[0030]运行所述树状时空模块化网络中的底层子模块;
[0031]将所述底层子模块的输出按照所述树状时空模块化网络的执行方向输入上一层子模块,运行所述上一层子模块;
[0032]按照上述方式继续运行,直至到达最高层的所述答案子模块,生成所述文本问题对应的所述最终答案;
[0033]其中,所述底层直至所述最高层的各个层在所述树状时空模块化网络中按照所述执行方向自下而上排列。
[0034]本申请实施例第二方面提供一种用于视频问答的动态时空模块化网络装置,包括:
[0035]问题生成模块,用于将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列;
[0036]模块序列生成模块,根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,所述子
模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种;
[0037]结构转化模块,对所述子模块序列进行结构转化,生成树状时空模块化网络,所述树状时空模块化网络用于生成所述文本问题对应的最终答案。
[0038]其中,所述问题生成模块包括:
[0039]单词提取子模块,用于从所述文本问题中提取问题单词;
[0040]元问题生成子模块,用于根据每个所述问题单词的含义提取问题标签,在预设元问题分类表中,依据所述问题标签得到每个所述问题单词对应的元问题;
[0041]问题序列生成子模块,用于将得到的多个元问题按照链式顺序组成所述问题序列。
[0042]其中,所述模块序列生成模块包括:
[0043]模块集合确认子模块,用于根据每个所述元问题对应的模块标签,确定每个所述元问题对应的预设模块集合,所述预设模块集合包括空间注意模块集合、时间注意模块集合、逻辑模块集合和答案模块集合;
[0044]子模块确认子模块,用于根据每个所述元问题对应的所述模块标签,在每个所述元问题对应的预设模块集合中找到多个具有相同所述模块标签的所述子模块,作为所述元问题对应的子模块;
[0045]子模块序列确认子模块,用于依据所述问题序列中的所述元问题的排序,将所述对应的子模块进行排序,得到所述子模块序列。
[0046]其中,在生成所述树状时空模块化网络之后,所述装置还包括:
[0047]视频处理模块,用于获取视频片段中多张指定帧编号的图像表征;
[0048]数据输入模块,用于将所述多张指定帧编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于视频问答的动态时空模块化网络方法,其特征在于,包括:将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列;根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种;对所述子模块序列进行结构转化,生成树状时空模块化网络,所述树状时空模块化网络用于生成所述文本问题对应的最终答案。2.根据权利要求1所述的用于视频问答的动态时空模块化网络方法,其特征在于,在生成所述树状时空模块化网络之后,还包括:获取视频片段中多张指定帧编号的图像表征;将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中;自下而上运行所述树状时空模块化网络,生成所述文本问题对应的所述最终答案。3.根据权利要求1所述的用于视频问答的动态时空模块化网络方法,其特征在于,将视频片段对应的文本问题转化为多个元问题,将所述多个元问题组成问题序列,包括:从所述文本问题中提取问题单词;根据每个所述问题单词的含义提取问题标签,在预设元问题分类表中,依据所述问题标签得到每个所述问题单词对应的元问题;将得到的多个元问题按照链式顺序组成所述问题序列。4.根据权利要求1所述的用于视频问答的动态时空模块化网络方法,其特征在于,根据预设匹配关系确定所述多个元问题各自对应的子模块,按照所述问题序列的排序,将所述多个元问题各自对应的子模块组成子模块序列,包括:根据每个所述元问题对应的模块标签,确定每个所述元问题对应的预设模块集合,所述预设模块集合包括空间注意模块集合、时间注意模块集合、逻辑模块集合和答案模块集合;根据每个所述元问题对应的所述模块标签,在每个所述元问题对应的预设模块集合中找到多个具有相同所述模块标签的所述子模块,作为所述元问题对应的子模块,其中,所述空间注意模块集合包括多种所述空间注意子模块;所述时间注意模块集合包括多种所述时间注意子模块;所述逻辑模块集合包括多种所述逻辑子模块;所述答案模块集合包括多种所述答案子模块;依据所述问题序列中的所述元问题的排序,将所述对应的子模块进行排序,得到所述子模块序列。5.根据权利要求2所述的用于视频问答的动态时空模块化网络方法,其特征在于,将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中,包括:将...

【专利技术属性】
技术研发人员:朱文武王鑫钱姿
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1