当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于正则化和对偶学习的视觉问答方法与装置制造方法及图纸

技术编号:37471333 阅读:18 留言:0更新日期:2023-05-06 09:52
本发明专利技术公开了一种基于正则化和对偶学习的视觉问答方法与装置,所述方法具体包括以下子步骤:提取VQA数据集中问题的关键词;对图像数据预处理,筛选图像中的关键区域;将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练;构建视觉蕴涵模型,并进行预训练;利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练;利用训练好的VQA和VQG模型进行视觉问答。行视觉问答。行视觉问答。

【技术实现步骤摘要】
一种基于正则化和对偶学习的视觉问答方法与装置


[0001]本专利技术属于视觉问答领域,尤其涉及一种基于正则化和对偶学习的视觉问答方法与装置。

技术介绍

[0002]视觉问答任务是视觉

语言多模态任务中的重要任务之一,其模型的能力指标可以衡量模型对于视觉、语言信息的理解能力,本领域发展也有利于促进多模态背景的问答系统发展。然而,视觉问答数据集中往往存在语言偏置,使得模型容易忽略视觉信息,而直接根据问题的统计规律做出问题回答,这极大阻碍本领域模型的发展,且影响人们对于模型的视觉、语言理解能力的评判。传统正则化方法包括分离视觉、语言信息对于最终答案影响的集成模型。基于对比学习、因果模型的数据增强方法,或者使用多样化的注意力机制,对数据偏置进行修正或者对模型进行因果分析,但是以上方法没有关注到视觉信息、问题信息、答案信息的信息量关系,虽然使得模型在相关的“语言偏置”诊断数据集上表现提升,但是却损害模型在标准数据集上的性能,没有真正提高模型对图像信息识别能力。

技术实现思路

[0003]本专利技术的目的在于针对现有VQA模型容易学习语言偏置而忽略图像信息的问题,提供一种基于正则化和VQA、VQG对偶学习的视觉问答方法与装置,充分利用二者在文本信息传递方向的对偶性、不平衡性,使得二者模型在文本数据流动上形成对偶关系,并要求二者模型在视觉注意力分布上保持一致性,避免模型过分自信,削弱VQA模型习得的数据集语言偏置,并增加模型对于图像信息的感知认识。
[0004]为实现上述专利技术目的,本专利技术的技术方案为:本专利技术实施例的第一方面提供了一种基于正则化和对偶学习的视觉问答方法,所述方法具体包括以下子步骤:
[0005]提取VQA数据集中问题的关键词;
[0006]对图像数据预处理,筛选图像中的关键区域;
[0007]将关键词和图像的关键区域输入至VQA、VQG模型进行预训练;
[0008]构建视觉蕴涵模型,并进行预训练;
[0009]利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练;
[0010]利用训练好的VQA和VQG模型进行视觉问答。
[0011]本专利技术实施例的第二方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于正则化和对偶学习的视觉问答方法。
[0012]本专利技术实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于正则化和对偶学习的视觉问答方法。
[0013]与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种基于正则化和对偶学
习的视觉问答方法,通过利用VQA和VQG任务的对偶特性,考虑到二者在文本信息传递方向的不平衡性,即VQA模型输入“高提示度”的问题信息,得到“低提示度”的答案,容易习得语言先验;而VQG模型恰恰相反,不容易习得语言先验的特点,本专利技术要求VQA模型与VQG模型在视觉注意力上,保持一致性,继而使得VQA模型更注重图像信息的学习;同时避免模型过于自信,进而进一步削弱模型对问题先验的学习。最后,充分基于正则化和对偶学习利用预训练得到的VQA、VQG模型进行协同训练。使得利用训练好的VQA和VQG模型能够顺利进行视觉问答
附图说明
[0014]图1为本实施例提供的基于VQA与VQG任务对偶性的正则化学习方法的流程图;
[0015]图2为本实施例提供的训练框架结构图;
[0016]图3为本实施例提供的数据预处理示意图;
[0017]图4为本实施例提供的一种电子设备。
具体实施方式
[0018]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0019]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0020]下面结合附图,对本专利技术进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0021]视觉问答(VQA,Visual Question Answering)模型M1的目标在于给定问题和图片,给出正确的答案,而视觉问题生成(VQG,visual question generation)模型M2的目标在于给定图片、文本提示信息,生成对应的问题。一般的,VQA问题答案简短,被建模为分类问题,而VQG问题为多模态的文本生成问题。
[0022]设VQA任务的数据集D={I
i
,Q
i
,A
i
}
N
,即其中共有N个样本D
i
,各个样本均包含(图片,问题,答案)三元组,其中Q
i
表示数据集D中的第i句问题,I
i
和A
i
表示第i幅图片和问题Q
i
的答案。
[0023]如图1所示,本专利技术提出了一种基于正则化和对偶学习的视觉问答方法,所述方法具体包括以下步骤:
[0024]1)提取VQA数据集中问题的关键词。
[0025]具体包括:
[0026]采用词性标注算法(Part

Of

Speech tagging,POS tagging),对VQA数据集中各问题Q
i
标注,筛选出名词、动词,作为第一关键词集合
[0027]使用TF

IDF方法(term frequency

inverse document frequency)判断VQA数据
集中各种类型问题中的关键词语,在本实例中要求每个问题Q
i
中至少筛选出前4个TF

IDF值较高的词语,作为第二关键词集合
[0028]取上述两步骤得到的关键词的并集,得到各个问句Q
i
的关键词集合,即问句Q
i
的关键词集合为
[0029]2)对图像数据预处理,筛选图像中的关键区域。
[0030]2.1)使用在Visual Genome数据集上预训练的Faster

RCNN目标检测模型,对所有的图片进行目标识别,得到物体检测框坐标、物体类别、物体颜色标签。
[0031]例如,对于图片I
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正则化和对偶学习的视觉问答方法,其特征在于,所述方法具体包括以下子步骤:提取VQA数据集中问题的关键词;对图像数据预处理,筛选图像中的关键区域;将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练;构建视觉蕴涵模型,并进行预训练;利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练;利用训练好的VQA和VQG模型进行视觉问答。2.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,提取VQA数据集中问题的关键词的过程包括:采用词性标注算法筛选出VQA数据集中问题的各个名词、动词,作为第一提示词集合;通过TF

IDF法判断VQA数据集中各种类型问题中的关键词,获取第二提示词集合;取第一提示词集合和第二提示词集合的并集,得到VQA数据集中各个问题的关键词。3.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,构建视觉蕴涵模型,并进行预训练包括:视觉蕴涵任务为[0,1]内的回归任务,其中标签1表示图片和问题相关,标签0表示图片和问题不相关;视觉蕴涵模型用于判断问题和图片的相关性;其中,标签1表示图片和问题相关,标签0表示图片和问题无关;对视觉蕴涵模型采用交叉熵损失预训练,直至模型收敛。4.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练的过程包括:利用视觉蕴涵模型M3进行相关性判断,构造VQA模型M1训练的正、负样本;利用VQG模型M2生成问题;利用视觉蕴涵模型对VQG模型M2生成的问题进行评分,根据评分构造伪标签;将正样本、负样本和VQG模型M2生成的问题输入VQA模型M1中,得到对应的答案;利用损失函数对VQA模型M1和VQG模型M2进行优化,并对VQA模型M1和VQG模型M2的注意力部分进行正则化约束,使VQA模型M1和VQG模型M2的注意力分布尽可能保持一致。5.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用视觉蕴涵模型进行相关性判断,构造VQA模型M1训练的正、负样本的过程包括:利用视觉蕴涵模型进行相关性判断,将图片I
i
和其对应的问题Q
i
配对,则Q
i
为正样本问题Q
+
,视(I
i
,A
i
,Q
i
)为正样本,设置正确答案A
i
的标签为1;将图片I
i
和其它问题Q
j
配对,i≠j,则Q
j
为负样本问题Q

,视(I
i
,A

,Q
j
)为负样本,其中A

为unsure标签。6.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法,其特征在于,利用VQG模型M2生成问题的过程包括:VQG模型M2根据视觉提示和文本提示生成问题;视觉提示为图像中的关键区域对应的特征向量F
i
,文本提示T
i
={A
j
,Q
j

H
j
},其中,A
j
为答案,Q
j

H
j
为关键词提取后的问题Q
i
与关键
词H
i
的差集;将VQG模型M2采...

【专利技术属性】
技术研发人员:毛瑞琛周祐超马小雯
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1