一种基于物体区域注意力机制的视频问答方法技术

技术编号:24458151 阅读:22 留言:0更新日期:2020-06-10 16:10
本发明专利技术涉及一种基于物体区域注意力机制的视频问答方法,步骤如下;S10、建立对应关系;S20、解析;S30、动态选择;该方法用问题中出现的物体词语作为指导,在视频区域中用注意力机制关注相对应的区域,进而帮助提高视频问题回答的准确率,基于视频与问题和答案的对应关系,本方法首先建立一个视频中区域和问题中名词的对应,在给定一个问题后,本方法首先解析出该问题中出现的物体词语,然后通过上面建立的对应关系在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助,一个问题中通常可能出现多个物体词语,为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。

A video question answering method based on the attention mechanism of object region

【技术实现步骤摘要】
一种基于物体区域注意力机制的视频问答方法
本专利技术涉及视频处理技术相关领域,尤其涉及一种基于物体区域注意力机制的视频问答方法。
技术介绍
传统的视觉任务通常着重于从图像或视频中学习有限的标签。最近,专注于联合视觉和语言的任务得到了越来越多的关注,这种任务的目标是在视觉和开放的语言之间寻找更好的对齐,并利用这种对齐解决更复杂的问题。这样的任务为视觉系统提供了一个新的方向,它无需图片、视频上的手工标注即可从视觉和语言中共同学习,视频问答(VideoQA)就是一种需要联合学习视觉和语言的具有挑战性的任务。给定视频及其配对的问题,我们需要设计模型来分析问题,从视频中收集信息并预测答案。但市场上现有的视频问答不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助。
技术实现思路
本专利技术的目的在于提供一种基于物体区域注意力机制的视频问答方法,以解决上述
技术介绍
中提出的不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助的问题。为了实现以上目的,本专利技术采用的技术方案为:一种基于物体区域注意力机制的视频问答方法,步骤如下;S10、建立对应关系;S20、解析;S30、动态选择。进一步的,所述步骤S10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系。进一步的,所述步骤S20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助。进一步的,所述步骤S30、动态选择;为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。进一步的,所述S30、动态选择中的注意力控制模块结合使用了一种可以级联使用的模块化设计,它将前一个注意力控制模块关注的区域当作记忆,通过结合记忆和全局的问题表征来选择当前模块的关注词语,进而产生当前的视频注意区域。本专利技术的有益效果为:本方法生成的注意力图相比于软注意力方法生成的图能更好地覆盖物体区域,从而提高视频问答的性能;另一方面,本方法生成注意力图的过程更加具有可解释性,能够为理解网络行为提供帮助。附图说明图1为本专利技术基于物体区域注意力机制的视频问答方法的流程图;图2为本专利技术注意力生成模块的方法示意图,它通过物体词语-视频区域对应来生成注意力图;图3为本专利技术注意力控制模块的流程示意图;图4为本专利技术本方法和软注意力方法生成的注意力图的比较图;图5为本专利技术叠加的多个注意力控制模块在物体词语及视频区域中切换注意力的示例图;图6为本专利技术本视频问答方法的结果示例图;图7为本专利技术步骤流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-7,本专利技术提供一种技术方案:一种基于物体区域注意力机制的视频问答方法,步骤如下;S10、建立对应关系;S20、解析;S30、动态选择。优选的,所述步骤S10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系;输入一个视频和对应于视频的问题,首先利用CNN和LSTM分别提取出视频表征和问题表征,同时利用语义分析工具提取出问题中出现的物体词语。优选的,所述步骤S20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助;通过注意力控制模块,结合问题表征和记忆(初始化为0)动态地选择问题中出现的物体词语。优选的,所述步骤S30、动态选择;为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域;利用物体词语-视频区域的对应关系找到视频中对应b中选择的词语的区域作为注意力图,这个注意力图选择的视频区域取均值得到的表征作为新的记忆;叠加多个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。优选的,所述S30、动态选择中的注意力控制模块结合使用了一种可以级联使用的模块化设计,它将前一个注意力控制模块关注的区域当作记忆,通过结合记忆和全局的问题表征来选择当前模块的关注词语,进而产生当前的视频注意区域。实施例1参考图1、图2和图3,表示为基于物体区域注意力机制的视频问答方法示意图,图中表示的步骤为:1.如图1所示,给定一个视频和对应的问题,利用CNN和LSTM分别提取出视频表征和问题表征,利用SemanticParser提取出问题中出现的物体词语。通过多个级联的注意力控制模块(AC)分别在物体词语中选择要关注的词,进而通过注意力生成模块生成视频上的注意力图。注意力图在各个注意力控制模块之间会动态地变化。最后一个注意力控制模块的图。2.如图2所示,在注意力生成模块在生成注意力图时,将物体词语的表征和视频每一个区域的表征映射到同一个空间中(这个映射就是前面建立的物体词语-视频区域对应),通过比较各区域和词语在该空间的相似度来作为注意力图。3.如图3所示,注意力控制模块起到的主要作用是在问题中的物体词语中选择要关注的词。该模块是一个可以级联使用的模块,它根据问题表征、上一个级联模块选择的词语向量和上一个模块的记忆来选择当前模块关注的词语,生成当前模块的词语向量,进而生成视频的注意力图,最后生成当前模块的记忆,通过这种级联的结构和记忆的使用,网络能够在视频中动态地关注不同的区域,从而帮助视频问答任务。图4展示了本方法和软注意力方法生成的注意力图的比较。我们在左右两侧分别展示了两个示例。在每个例子中,上面一行表示本方法产生的注意力图,下面一行表示软注意力方法生成的注意力图。图5展示了本方法中多个注意力控制模块在物体词语及视频区域中切换注意力的示例图,上下两行分别为两个例子。每个示例中,第一列为视频中某一帧的原图,后面三列分别表示前后不同的三个注意力控制模块产生的注意力图,图上的数字则表示对不同词语的关注程度。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。本文中应用了具体个例对本专利技术的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本专利技术的方法及其核心思想。以上所述仅是本专利技术的优选实施方本文档来自技高网...

【技术保护点】
1.一种基于物体区域注意力机制的视频问答方法,其特征在于:步骤如下;/nS10、建立对应关系;S20、解析;S30、动态选择。/n

【技术特征摘要】
1.一种基于物体区域注意力机制的视频问答方法,其特征在于:步骤如下;
S10、建立对应关系;S20、解析;S30、动态选择。


2.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法方法,其特征在于:所述步骤S10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系。


3.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法,其特征在于:所述步骤S20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图...

【专利技术属性】
技术研发人员:程明明张宇李炫毅任博
申请(专利权)人:镇江优瞳智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1