用于视频问答的动态时空模块化网络方法、装置及产品制造方法及图纸

技术编号：36073909 阅读：42 留言：0更新日期：2022-12-24 10:44

本申请实施例涉及视频问答领域，提供了一种用于视频问答的动态时空模块化网络方法、装置及产品，包括：将视频片段对应的文本问题转化为多个元问题，将所述多个元问题组成问题序列；根据预设匹配关系确定所述多个元问题各自对应的子模块，按照所述问题序列的排序，将所述多个元问题各自对应的子模块组成子模块序列，所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种；对所述子模块序列进行结构转化，生成树状时空模块化网络，所述树状时空模块化网络用于生成所述文本问题对应的最终答案。本申请提供的方法可以明确网络结构，同时有效模拟人类的逻辑思维方式，提升视频问答任务的性能和可解释性。释性。释性。

全部详细技术资料下载

【技术实现步骤摘要】
用于视频问答的动态时空模块化网络方法、装置及产品

[0001]本申请实施例涉及视频问答领域，具体而言，涉及一种用于视频问答的动态时空模块化网络方法、装置及产品。

技术介绍

[0002]现如今视频问答任务是多模态领域研究的热点之一，其旨在根据视频片段中包含的信息来回答问题。当前的视频问答系统主要有基于编码器
‑
解码器结构方法的视频问答系统、基于记忆网络的方法视频问答系统、基于时空图神经网络方法的视频问答系统以及基于视频和语言预训练方法的视频问答系统。
[0003]然而，这些视频问答系统都会依赖端到端的黑盒深度神经网络进行推理从而获得答案，这与人类的逻辑推理方式相去甚远，容易导致视频问答系统缺乏解释性，以及组合问题回答能力不足等问题。因此，如何提升视频问答系统中回答组合问题的能力以及可解释性成了亟待解决的问题。

技术实现思路

[0004]本申请实施例在于提供一种用于视频问答的动态时空模块化网络方法、装置及产品，旨在解决视频问答系统中回答组合问题的能力低以及可解释性较差的问题。
[0005]本申请实施例第一方面提供一种用于视频问答的动态时空模块化网络方法，包括：
[0006]将视频片段对应的文本问题转化为多个元问题，将所述多个元问题组成问题序列；
[0007]根据预设匹配关系确定所述多个元问题各自对应的子模块，按照所述问题序列的排序，将所述多个元问题各自对应的子模块组成子模块序列，所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或...

【技术保护点】

【技术特征摘要】
1.一种用于视频问答的动态时空模块化网络方法，其特征在于，包括：将视频片段对应的文本问题转化为多个元问题，将所述多个元问题组成问题序列；根据预设匹配关系确定所述多个元问题各自对应的子模块，按照所述问题序列的排序，将所述多个元问题各自对应的子模块组成子模块序列，所述子模块包括空间注意子模块、时间注意子模块、逻辑子模块和答案子模块中的一种或多种；对所述子模块序列进行结构转化，生成树状时空模块化网络，所述树状时空模块化网络用于生成所述文本问题对应的最终答案。2.根据权利要求1所述的用于视频问答的动态时空模块化网络方法，其特征在于，在生成所述树状时空模块化网络之后，还包括：获取视频片段中多张指定帧编号的图像表征；将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中；自下而上运行所述树状时空模块化网络，生成所述文本问题对应的所述最终答案。3.根据权利要求1所述的用于视频问答的动态时空模块化网络方法，其特征在于，将视频片段对应的文本问题转化为多个元问题，将所述多个元问题组成问题序列，包括：从所述文本问题中提取问题单词；根据每个所述问题单词的含义提取问题标签，在预设元问题分类表中，依据所述问题标签得到每个所述问题单词对应的元问题；将得到的多个元问题按照链式顺序组成所述问题序列。4.根据权利要求1所述的用于视频问答的动态时空模块化网络方法，其特征在于，根据预设匹配关系确定所述多个元问题各自对应的子模块，按照所述问题序列的排序，将所述多个元问题各自对应的子模块组成子模块序列，包括：根据每个所述元问题对应的模块标签，确定每个所述元问题对应的预设模块集合，所述预设模块集合包括空间注意模块集合、时间注意模块集合、逻辑模块集合和答案模块集合；根据每个所述元问题对应的所述模块标签，在每个所述元问题对应的预设模块集合中找到多个具有相同所述模块标签的所述子模块，作为所述元问题对应的子模块，其中，所述空间注意模块集合包括多种所述空间注意子模块；所述时间注意模块集合包括多种所述时间注意子模块；所述逻辑模块集合包括多种所述逻辑子模块；所述答案模块集合包括多种所述答案子模块；依据所述问题序列中的所述元问题的排序，将所述对应的子模块进行排序，得到所述子模块序列。5.根据权利要求2所述的用于视频问答的动态时空模块化网络方法，其特征在于，将所述多张指定帧编号的图像表征和所述多个元问题输入所述树状时空模块化网络中，包括：将...

【专利技术属性】
技术研发人员：朱文武，王鑫，钱姿，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人