【技术实现步骤摘要】
一种视觉问答方法、装置及电子设备和存储介质
本申请涉及人工智能
,更具体地说,涉及一种视觉问答方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
VQA(中文全称:视觉问答,英文全称:VisualQuestionAnswering)的目的在于使计算机获得根据图像内容回答人为提问的能力,是一项跨模态的AI(中文全称:人工智能,英文全称:ArtificialIntelligence)处理技术。VQA任务将图像与文本融合起来,是一种跨模态AI任务。由于VQA任务的特性,需要先将图像特征与文本特征分别提取出来,通过特征融合将其共同输入到一个编码器网络中提取编码特征,最后将编码特征输入到分类器中,预测最终答案。现阶段,通常采用目标检测框架作为图像特征的提取网络。如图1所示,将输入问句文本通过文本特征映射转化成L×M的文本特征,其中L表示问句的长度(即问句包括L个单词),M表示每个单词转化为特征的维度。随后,通过文本特征编码器对其进行特征编码。类似的,将图像的检测特征及其对应检测位置融合后也进行特征编码。然后,将 ...
【技术保护点】
1.一种视觉问答方法,其特征在于,包括:/n获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;/n确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;/n将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;/n将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。/n
【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:
获取目标问句和目标图像,从所述目标问句中提取文本特征,并利用目标检测框架从所述目标图像中提取图像特征;
确定所述图像特征对应的位置,并确定所述图像特征对应的实体类型和属性类型;
将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征;
将所述融合特征输入VQA分类器中得到所述目标问句对应的答案。
2.根据权利要求1所述视觉问答方法,其特征在于,所述确定所述图像特征对应的实体类型和属性类型,包括:
将所述图像特征输入训练完成的实体分类器中得到所述图像特征对应的实体类型;
将所述图像特征输入训练完成的属性分类器中得到所述图像特征对应的属性类型。
3.根据权利要求2所述视觉问答方法,其特征在于,还包括:
从答案候选集中确定所有所述实体类型和所有所述属性类型;
获取图像特征训练集,并标注所述图像特征训练集中每个训练图像特征对应的实体类型和属性类型;
利用所述图像特征训练集和每个训练图像特征对应的实体类型训练实体分类器,以便得到所述训练完成的实体分类器;
利用所述图像特征训练集和每个训练图像特征对应的属性类型训练属性分类器,以便得到所述训练完成的属性分类器。
4.根据权利要求1所述视觉问答方法,其特征在于,从所述目标问句中提取文本特征,包括:
对所述目标问句进行文本特征映射以便从所述目标问句中提取文本特征。
5.根据权利要求1所述视觉问答方法,其特征在于,将所述文本特征、所述图像特征、所述位置、所述实体类型和所述属性类型进行特征融合得到融合特征,包括:
对所述文本特征进行编码得到文本编码特征,对所述位置进行编码得到位置编码;
对所述实体类型进行文本特征映射以便得到实体特征,对所述属性类型进行编码以便得到属性特征;
将所述文本编码特征、所述图像特征...
【专利技术属性】
技术研发人员:李晓川,张润泽,范宝余,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。