本申请公开了一种视觉问答方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。本申请提供的视觉问答方法,将目标检测框架输出的图像特征进行实体及属性的分类,并将分类器的输出与文本特征、图像特征融合之后输入到VQA分类器中,通过提高检测特征的利用率,提高VQA模型预测精度。
【技术实现步骤摘要】
一种视觉问答方法、装置及电子设备和存储介质
本申请涉及人工智能
,更具体地说,涉及一种视觉问答方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
VQA(中文全称:视觉问答,英文全称:VisualQuestionAnswering)的目的在于使计算机获得根据图像内容回答人为提问的能力,是一项跨模态的AI(中文全称:人工智能,英文全称:ArtificialIntelligence)处理技术。VQA任务将图像与文本融合起来,是一种跨模态AI任务。由于VQA任务的特性,需要先将图像特征与文本特征分别提取出来,通过特征融合将其共同输入到一个编码器网络中提取编码特征,最后将编码特征输入到分类器中,预测最终答案。现阶段,通常采用目标检测框架作为图像特征的提取网络。如图1所示,将输入问句文本通过文本特征映射转化成L×M的文本特征,其中L表示问句的长度(即问句包括L个单词),M表示每个单词转化为特征的维度。随后,通过文本特征编码器对其进行特征编码。类似的,将图像的检测特征及其对应检测位置融合后也进行特征编码。然后,将两种特征融合之后继续编码,随后通过VQA分类器分类输出最终预测的答案。由于受限于目标检测框架的性能瓶颈,VQA模型很难通过更改自身网络结构来大幅度的提高预测精度。因此,如何充分的提取检测特征,辅助提升VQA任务的分类精度是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的在于提供一种视觉问答方法、装置及一种电子设备和一种计算机可读存储介质,实现了充分的提取检测特征,辅助提升了VQA任务的分类精度。为实现上述目的,本申请提供了一种视觉问答方法,包括:获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。其中,所述确定所述图像特征对应的实体类型和属性类型,包括:将所述图像特征输入训练完成的实体分类器中得到所述图像特征对应的实体类型;将所述图像特征输入训练完成的属性分类器中得到所述图像特征对应的属性类型。其中,还包括:从答案候选集中确定所有所述实体类型和所有所述属性类型;获取图像特征训练集,并标注所述图像特征训练集中每个训练图像特征对应的实体类型和属性类型;利用所述图像特征训练集和每个训练图像特征对应的实体类型训练实体分类器,以便得到所述训练完成的实体分类器;利用所述图像特征训练集和每个训练图像特征对应的属性类型训练属性分类器,以便得到所述训练完成的属性分类器。其中,从所述目标问句中提取文本特征,包括:对所述目标问句进行文本特征映射以便从所述目标问句中提取文本特征。其中,将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征,包括:对所述文本特征进行编码得到文本编码特征,对所述位置进行编码得到位置编码;对所述实体类型进行文本特征映射以便得到实体特征,对所述属性类型进行编码以便得到属性特征;将所述文本编码特征、所述图像特征、所述位置编码、所述实体特征和所述属性特征融合为所述融合特征。其中,将所述文本编码特征、所述图像特征、所述位置编码、所述实体特征和所述属性特征融合为所述融合特征,包括:将所述位置编码和图像特征融合后进行编码得到图像编码特征;对所述实体特征进行编码得到实体编码特征,对所述属性特征进行编码得到属性编码特征;将所述文本编码特征、所述图像编码特征、所述实体编码特征和所述属性编码特征进行特征融合得到所述融合特征。其中,将所述文本编码特征、所述图像特征、所述位置编码、所述实体特征和所述属性特征融合为所述融合特征,包括:将所述实体特征、所述属性特征和所述位置编码融合为图像检测特征,并对所述图像检测特征进行编码得到图像编码特征;将所述文本编码特征和所述图像编码特征进行特征融合得到所述融合特征。为实现上述目的,本申请提供了一种视觉问答装置,包括:提取模块,用于获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;第一确定模块,用于确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;融合模块,用于将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;输入模块,用于将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。为实现上述目的,本申请提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述视觉问答方法的步骤。为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述视觉问答方法的步骤。通过以上方案可知,本申请提供的一种视觉问答方法,包括:获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。本申请提供的视觉问答方法,将目标检测框架输出的图像特征进行实体及属性的分类,并将分类器的输出与文本特征、图像特征融合之后输入到VQA分类器中,没有改变目标检测框架本身,而是通过提高检测特征的利用率,提高VQA模型预测精度。由此可见,本申请提供的视觉问答方法,将图像中的实体、属性扩充到检测特征中来,扩充了现有VQA任务的图像特征,尽可能充分的提取的检测特征,提高了输入特征的完整性,打破了现有检测框架的瓶颈,辅助提升VQA任务的分类精度。本申请还公开了一种视觉问答装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1为相关技术中提供的一种VQA流程图;图2为根据一示例性实施例示出的一种视觉问答方法的流本文档来自技高网...
【技术保护点】
1.一种视觉问答方法,其特征在于,包括:/n获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;/n确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;/n将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;/n将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。/n
【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:
获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;
确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;
将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;
将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。
2.根据权利要求1所述视觉问答方法,其特征在于,所述确定所述图像特征对应的实体类型和属性类型,包括:
将所述图像特征输入训练完成的实体分类器中得到所述图像特征对应的实体类型;
将所述图像特征输入训练完成的属性分类器中得到所述图像特征对应的属性类型。
3.根据权利要求2所述视觉问答方法,其特征在于,还包括:
从答案候选集中确定所有所述实体类型和所有所述属性类型;
获取图像特征训练集,并标注所述图像特征训练集中每个训练图像特征对应的实体类型和属性类型;
利用所述图像特征训练集和每个训练图像特征对应的实体类型训练实体分类器,以便得到所述训练完成的实体分类器;
利用所述图像特征训练集和每个训练图像特征对应的属性类型训练属性分类器,以便得到所述训练完成的属性分类器。
4.根据权利要求1所述视觉问答方法,其特征在于,从所述目标问句中提取文本特征,包括:
对所述目标问句进行文本特征映射以便从所述目标问句中提取文本特征。
5.根据权利要求1所述视觉问答方法,其特征在于,将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征,包括:
对所述文本特征进行编码得到文本编码特征,对所述位置进行编码得到位置编码;
对所述实体类型进行文本特征映射以便得到实体特征,对所述属性类型进行编码以便得到属性特征;
将所述文本编码特征、所述图像特征...
【专利技术属性】
技术研发人员:李晓川,张润泽,范宝余,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。