【技术实现步骤摘要】
一种基于弱监督双流视觉语言交互的答案定位方法及装置
[0001]本专利技术涉及多模态
,尤其涉及一种基于弱监督双流视觉语言交互的答案定位方法及装置。
技术介绍
[0002]视觉问答(VQA,Visual Question Answer)旨在回答关于图像的问题并提供自然语言答案,例如为视障人士解答有关图像的问题。为了提升视觉问答的效果,近期的研究开始评估图像上答案区域的交并比,因为回答问题所用的图像区域对视觉问答也很重要。现有工作通常通过视觉问答模块的注意力图来获得答案定位,并评估模型是否正确关注与答案相关的区域对象。这项任务通常称为视觉问答定位(Visual Question Answer grounding),跨越了视觉语言多模态多任务。通过这项技术,残障人士可以通过手机识别图像中的信息,并将重点信息突出显示,同时保护隐私。
[0003]视觉问答定位作为视觉问答在视觉证据上的扩展,其在多模态信息以外,还包含了空间信息。视觉问答是给定的图像和与之相对应的自然语言问题,模型给出回答。而视觉问答定位除了需要给出准确 ...
【技术保护点】
【技术特征摘要】
1.一种基于弱监督双流视觉语言交互的答案定位方法,其特征在于,所述方法包括:通过基于视觉的语言编码器对视觉特征和自然语言特征分别进行线性映射,将映射后的视觉特征和自然语言特征进行多模态融合,使视觉特征向文本特征对齐;通过基于语言的视觉解码器对视觉联级特征和自然语言特征分别进行线性映射,通过多模态融合使文本特征向视觉联级特征对齐,生成最终的答案定位图;通过答案解码器对关注的视觉特征与问题特征进行最终融合,生成联合嵌入,通过分类器从答案集中预测正确答案;通过在双流语言视觉问答定位中引入弱监督学习,让模型学习自身生成的伪标签,来补充真实数据的缺失;根据正确答案和答案定位图,用于残障人士识别图像中的信息。2.根据权利要求1所述的一种基于弱监督双流视觉语言交互的答案定位方法,其特征在于,所述基于视觉的语言编码器为:将视觉编码器所提取的视觉特征通过两个独立的线性映射层转换为视觉特征K
vl
和V
vl
,自然语言嵌入经过自注意力层提取内部相关信息,并通过线性映射层映射为Q
vl
;将Q
vl
、K
vl
和V
vl
输入到交叉注意力层中,交叉注意力层使用语言特征作为视觉查询的参考,经过前馈网络层后生成特征F
vl
;最大化目标训练网络,定义为:其中,数据集为C,L
Answer
(C)为答案解码器,x为嵌入序列,y为答案标签。3.根据权利要求1所述的一种基于弱监督双流视觉语言交互的答案定位方法,其特征在于,所述基于语言的视觉解码器为:将视觉编码器所提取的联级特征线性映射为Q
lv
,将...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。