一种基于物体区域注意力机制的视频问答方法技术

技术编号:24458151 阅读:29 留言:0更新日期:2020-06-10 16:10
本发明专利技术涉及一种基于物体区域注意力机制的视频问答方法,步骤如下;S10、建立对应关系;S20、解析;S30、动态选择;该方法用问题中出现的物体词语作为指导,在视频区域中用注意力机制关注相对应的区域,进而帮助提高视频问题回答的准确率,基于视频与问题和答案的对应关系,本方法首先建立一个视频中区域和问题中名词的对应,在给定一个问题后,本方法首先解析出该问题中出现的物体词语,然后通过上面建立的对应关系在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助,一个问题中通常可能出现多个物体词语,为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。

A video question answering method based on the attention mechanism of object region

【技术实现步骤摘要】
一种基于物体区域注意力机制的视频问答方法
本专利技术涉及视频处理技术相关领域,尤其涉及一种基于物体区域注意力机制的视频问答方法。
技术介绍
传统的视觉任务通常着重于从图像或视频中学习有限的标签。最近,专注于联合视觉和语言的任务得到了越来越多的关注,这种任务的目标是在视觉和开放的语言之间寻找更好的对齐,并利用这种对齐解决更复杂的问题。这样的任务为视觉系统提供了一个新的方向,它无需图片、视频上的手工标注即可从视觉和语言中共同学习,视频问答(VideoQA)就是一种需要联合学习视觉和语言的具有挑战性的任务。给定视频及其配对的问题,我们需要设计模型来分析问题,从视频中收集信息并预测答案。但市场上现有的视频问答不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助。
技术实现思路
本专利技术的目的在于提供一种基于物体区域注意力机制的视频问答方法,以解决上述
技术介绍
中提出的不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助的问本文档来自技高网...

【技术保护点】
1.一种基于物体区域注意力机制的视频问答方法,其特征在于:步骤如下;/nS10、建立对应关系;S20、解析;S30、动态选择。/n

【技术特征摘要】
1.一种基于物体区域注意力机制的视频问答方法,其特征在于:步骤如下;
S10、建立对应关系;S20、解析;S30、动态选择。


2.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法方法,其特征在于:所述步骤S10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系。


3.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法,其特征在于:所述步骤S20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图...

【专利技术属性】
技术研发人员:程明明张宇李炫毅任博
申请(专利权)人:镇江优瞳智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1