一种基于正则化和对偶学习的视觉问答方法与装置制造方法及图纸

技术编号：37471333 阅读：18 留言：0更新日期：2023-05-06 09:52

本发明专利技术公开了一种基于正则化和对偶学习的视觉问答方法与装置，所述方法具体包括以下子步骤：提取VQA数据集中问题的关键词；对图像数据预处理，筛选图像中的关键区域；将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练；构建视觉蕴涵模型，并进行预训练；利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练；利用训练好的VQA和VQG模型进行视觉问答。行视觉问答。行视觉问答。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于正则化和对偶学习的视觉问答方法与装置

[0001]本专利技术属于视觉问答领域，尤其涉及一种基于正则化和对偶学习的视觉问答方法与装置。

技术介绍

[0002]视觉问答任务是视觉
‑
语言多模态任务中的重要任务之一，其模型的能力指标可以衡量模型对于视觉、语言信息的理解能力，本领域发展也有利于促进多模态背景的问答系统发展。然而，视觉问答数据集中往往存在语言偏置，使得模型容易忽略视觉信息，而直接根据问题的统计规律做出问题回答，这极大阻碍本领域模型的发展，且影响人们对于模型的视觉、语言理解能力的评判。传统正则化方法包括分离视觉、语言信息对于最终答案影响的集成模型。基于对比学习、因果模型的数据增强方法，或者使用多样化的注意力机制，对数据偏置进行修正或者对模型进行因果分析，但是以上方法没有关注到视觉信息、问题信息、答案信息的信息量关系，虽然使得模型在相关的“语言偏置”诊断数据集上表现提升，但是却损害模型在标准数据集上的性能，没有真正提高模型对图像信息识别能力。

技术实现思路

[0003]本专利技术的目的在于针对现有VQA模型容易学习语言偏置而忽略图像信息的问题，提供一种基于正则化和VQA、VQG对偶学习的视觉问答方法与装置，充分利用二者在文本信息传递方向的对偶性、不平衡性，使得二者模型在文本数据流动上形成对偶关系，并要求二者模型在视觉注意力分布上保持一致性，避免模型过分自信，削弱VQA模型习得的数据集语言偏置，并增加模型对于图像信息的感知认识。
[0004]为实现上述专利技术目的，本...

【技术保护点】

【技术特征摘要】
1.一种基于正则化和对偶学习的视觉问答方法，其特征在于，所述方法具体包括以下子步骤：提取VQA数据集中问题的关键词；对图像数据预处理，筛选图像中的关键区域；将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练；构建视觉蕴涵模型，并进行预训练；利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练；利用训练好的VQA和VQG模型进行视觉问答。2.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，提取VQA数据集中问题的关键词的过程包括：采用词性标注算法筛选出VQA数据集中问题的各个名词、动词，作为第一提示词集合；通过TF
‑
IDF法判断VQA数据集中各种类型问题中的关键词，获取第二提示词集合；取第一提示词集合和第二提示词集合的并集，得到VQA数据集中各个问题的关键词。3.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，构建视觉蕴涵模型，并进行预训练包括：视觉蕴涵任务为[0，1]内的回归任务，其中标签1表示图片和问题相关，标签0表示图片和问题不相关；视觉蕴涵模型用于判断问题和图片的相关性；其中，标签1表示图片和问题相关，标签0表示图片和问题无关；对视觉蕴涵模型采用交叉熵损失预训练，直至模型收敛。4.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练的过程包括：利用视觉蕴涵模型M3进行相关性判断，构造VQA模型M1训练的正、负样本；利用VQG模型M2生成问题；利用视觉蕴涵模型对VQG模型M2生成的问题进行评分，根据评分构造伪标签；将正样本、负样本和VQG模型M2生成的问题输入VQA模型M1中，得到对应的答案；利用损失函数对VQA模型M1和VQG模型M2进行优化，并对VQA模型M1和VQG模型M2的注意力部分进行正则化约束，使VQA模型M1和VQG模型M2的注意力分布尽可能保持一致。5.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用视觉蕴涵模型进行相关性判断，构造VQA模型M1训练的正、负样本的过程包括：利用视觉蕴涵模型进行相关性判断，将图片I
i
和其对应的问题Q
i
配对，则Q
i
为正样本问题Q
+
，视(I
i
，A
i
，Q
i
)为正样本，设置正确答案A
i
的标签为1；将图片I
i
和其它问题Q
j
配对，i≠j，则Q
j
为负样本问题Q
‑
，视(I
i
，A
‑
，Q
j
)为负样本，其中A
‑
为unsure标签。6.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用VQG模型M2生成问题的过程包括：VQG模型M2根据视觉提示和文本提示生成问题；视觉提示为图像中的关键区域对应的特征向量F
i
，文本提示T
i
＝{A
j
，Q
j
‑
H
j
}，其中，A
j
为答案，Q
j
‑
H
j
为关键词提取后的问题Q
i
与关键
词H
i
的差集；将VQG模型M2采...

【专利技术属性】
技术研发人员：毛瑞琛，周祐超，马小雯，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人