【技术实现步骤摘要】
一种基于正则化和对偶学习的视觉问答方法与装置
[0001]本专利技术属于视觉问答领域,尤其涉及一种基于正则化和对偶学习的视觉问答方法与装置。
技术介绍
[0002]视觉问答任务是视觉
‑
语言多模态任务中的重要任务之一,其模型的能力指标可以衡量模型对于视觉、语言信息的理解能力,本领域发展也有利于促进多模态背景的问答系统发展。然而,视觉问答数据集中往往存在语言偏置,使得模型容易忽略视觉信息,而直接根据问题的统计规律做出问题回答,这极大阻碍本领域模型的发展,且影响人们对于模型的视觉、语言理解能力的评判。传统正则化方法包括分离视觉、语言信息对于最终答案影响的集成模型。基于对比学习、因果模型的数据增强方法,或者使用多样化的注意力机制,对数据偏置进行修正或者对模型进行因果分析,但是以上方法没有关注到视觉信息、问题信息、答案信息的信息量关系,虽然使得模型在相关的“语言偏置”诊断数据集上表现提升,但是却损害模型在标准数据集上的性能,没有真正提高模型对图像信息识别能力。
技术实现思路
[0003]本专利技术的目的在于针对现有VQA模型容易学习语言偏置而忽略图像信息的问题,提供一种基于正则化和VQA、VQG对偶学习的视觉问答方法与装置,充分利用二者在文本信息传递方向的对偶性、不平衡性,使得二者模型在文本数据流动上形成对偶关系,并要求二者模型在视觉注意力分布上保持一致性,避免模型过分自信,削弱VQA模型习得的数据集语言偏置,并增加模型对于图像信息的感知认识。
[0004]为实现上述专利技术目的,本 ...
【技术保护点】
【技术特征摘要】
1.一种基于正则化和对偶学习的视觉问答方法,其特征在于,所述方法具体包括以下子步骤:提取VQA数据集中问题的关键词;对图像数据预处理,筛选图像中的关键区域;将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练;构建视觉蕴涵模型,并进行预训练;利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练;利用训练好的VQA和VQG模型进行视觉问答。2.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,提取VQA数据集中问题的关键词的过程包括:采用词性标注算法筛选出VQA数据集中问题的各个名词、动词,作为第一提示词集合;通过TF
‑
IDF法判断VQA数据集中各种类型问题中的关键词,获取第二提示词集合;取第一提示词集合和第二提示词集合的并集,得到VQA数据集中各个问题的关键词。3.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,构建视觉蕴涵模型,并进行预训练包括:视觉蕴涵任务为[0,1]内的回归任务,其中标签1表示图片和问题相关,标签0表示图片和问题不相关;视觉蕴涵模型用于判断问题和图片的相关性;其中,标签1表示图片和问题相关,标签0表示图片和问题无关;对视觉蕴涵模型采用交叉熵损失预训练,直至模型收敛。4.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练的过程包括:利用视觉蕴涵模型M3进行相关性判断,构造VQA模型M1训练的正、负样本;利用VQG模型M2生成问题;利用视觉蕴涵模型对VQG模型M2生成的问题进行评分,根据评分构造伪标签;将正样本、负样本和VQG模型M2生成的问题输入VQA模型M1中,得到对应的答案;利用损失函数对VQA模型M1和VQG模型M2进行优化,并对VQA模型M1和VQG模型M2的注意力部分进行正则化约束,使VQA模型M1和VQG模型M2的注意力分布尽可能保持一致。5.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用视觉蕴涵模型进行相关性判断,构造VQA模型M1训练的正、负样本的过程包括:利用视觉蕴涵模型进行相关性判断,将图片I
i
和其对应的问题Q
i
配对,则Q
i
为正样本问题Q
+
,视(I
i
,A
i
,Q
i
)为正样本,设置正确答案A
i
的标签为1;将图片I
i
和其它问题Q
j
配对,i≠j,则Q
j
为负样本问题Q
‑
,视(I
i
,A
‑
,Q
j
)为负样本,其中A
‑
为unsure标签。6.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用VQG模型M2生成问题的过程包括:VQG模型M2根据视觉提示和文本提示生成问题;视觉提示为图像中的关键区域对应的特征向量F
i
,文本提示T
i
={A
j
,Q
j
‑
H
j
},其中,A
j
为答案,Q
j
‑
H
j
为关键词提取后的问题Q
i
与关键
词H
i
的差集;将VQG模型M2采...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。