视觉问答的实现方法和基于视觉问答检验模型的方法技术

技术编号:35291294 阅读:19 留言:0更新日期:2022-10-22 12:37
提供一种视觉问答的实现方法。该实现方法包括:采用混合专家模型接收目标问题以及与目标问题对应的富文本图片并输出目标问题的答案,其中,所述混合专家模型包括门控网络和多个专家模型,其中,所述门控网络用于确定目标问题的问题类型,基于问题类型确认所述目标问题为多个问题类型中的第一问题类型,以及将目标问题提供给多个专家模型中的第一专家模型;所述第一专家模型用于提供目标问题的答案。本公开不再采用一个通用专家处理所有问题,而是有针对性地针对不同问题采用不同专家模型处理,这种设计能有效地协同多个专家模型拓宽模型性能边界,并提高答案的准确度。并提高答案的准确度。并提高答案的准确度。

【技术实现步骤摘要】
视觉问答的实现方法和基于视觉问答检验模型的方法


[0001]本公开涉及神经网络模型的应用领域,尤其涉及一种视觉问答的实现方法和基于视觉问答检验模型的方法。

技术介绍

[0002]视觉问答(VQA)将图像和关于图像的形式自由的、开放式的自然语言问题作为输入,生成自然语言答案作为输出,例如给定一张图像和一系列问题,要求机器根据图像内容,结合一些常识来推理得到问题答案。要完成视觉问答(VQA),需要具备人工智能能力的专家模型。但是专家模型往往对一些问题表现良好,但对另一些问题表现不佳。

技术实现思路

[0003]有鉴于此,本公开旨在提供一种视觉问答的实现方法和基于视觉问答检验模型的方法,以解决现存的技术问题。
[0004]根据本公开的第一方面,提供一种视觉问答的实现方法,包括:采用混合专家模型接收目标问题以及与目标问题对应的富文本图片并输出目标问题的答案,其中,所述混合专家模型包括门控网络和多个专家模型,其中,
[0005]所述门控网络用于确定所述目标问题的问题类型,基于所述问题类型确认所述目标问题为多个问题类型中的第一问题类型,以及将所述目标问题提供给所述多个专家模型中的第一专家模型;
[0006]所述第一专家模型用于提供所述目标问题的答案。
[0007]可选地,所述专家模型包括:词嵌入表达模块、视觉编码器和变换器,所述词嵌入表达模块用于将所述目标问题编码为词嵌入序列,所述视觉编码器用于将所述富文本图片编码为视觉特征序列,所述变换器用于将所述词嵌入序列和所述视觉特征序列分别与注意力权重相乘,以得到分数矩阵,并根据所述分数矩阵确定所述目标问题的答案。
[0008]可选地,所述词嵌入序列包含的每个词向量基于模态类型、对应词的位置信息和对应词的词嵌入得到,所述视觉特征序列包含的每个项同样基于模态类型、所述富文本图片的对应组成部分的位置信息和所述富文本图片的对应组成部分的视觉特征组成得到。
[0009]可选地,在所述变换器中,通过不同的注意力权重控制模态间和模态内交互。
[0010]可选地,所述富文本图片的对应组成部分的视觉特征为区域特征、网格特征和面片特征中的至少一种视觉特征。
[0011]可选地,所述多个专家为:
[0012]文本阅读专家,用于回答与所述富文本图像中的文字信息相关的问题;
[0013]计数专家,用于答案与所述富文本图片中的物体数量相关的问题;
[0014]时钟读取专家,用于回答与所述富文本图片中的时钟时间相关的问题。
[0015]可选地,所述计数专家和所述时钟读取专家分别从所述富文本图片中提取区域特征、网格特征和面片特征并对所述区域特征、所述网格特征和所述面片特征进行融合,并将
融合结果与从所述目标问题中提取到到文本特征进行匹配。
[0016]可选地,在所述融合结果中,所述区域特征、所述网格特征和所述面片特征分别采用不同的注意力权重。
[0017]可选地,在所述时钟读取专家和所述计数专家中,所述区域特征和网格特征均比所述面片特征获取更高的注意力权重。
[0018]可选地,所述文本阅读专家利用OCR从所述富文本图片获取文字信息并据此获得第一词嵌入序列,利用单元格将所述富文本图片序列化以得到单元格序列,所述单元格序列的每个项包含所述文字信息中的至少一个词,将所述目标问题对应的第二词嵌入序列与所述第一词嵌入序列进行拼接,得到的第三词嵌入序列,然后,将所述单元格序列和所述第三词嵌入序列作为词跨度预测分类器的输入,并根据预测结果给出所述目标问题的答案。
[0019]可选地,还包括:将接收到的视觉语言问答任务分成分成多个子任务,每个子任务包括所述富文本图片以及针对所述富文本图片的目标问题。
[0020]根据本公开的第二方面,提供一种基于视觉问答系统进行知识挖掘的方法,包括:
[0021]收集所述视觉问答系统中预测分数低于设定阈值的多个样本,以形成样本集,所述样本包括富文本图片以及与所述富文本图片对应的目标问题;
[0022]对所述多个样本进行聚类,以形成多个子样本集;
[0023]根据所述子样本集确定所述视觉问答系统中缺少的专家模型。
[0024]可选地,还包括:构建所述视觉问答系统中缺少的专家模型,并利用所述多个子样本集的对应子样本集对其进行训练。
[0025]根据本公开的第三方面,提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面的实现方法或第二方面的方法。
[0026]根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的实现方法或第二方面的方法。
[0027]本公开各个实施例对于VQA任务,不再采用一个通用专家处理所有问题,而是有针对性地针对不同问题采用不同专家模型处理。例如对于包含很多文字信息的富文本图片,采用一个专门的文本理解专家提取富文本图片中的文字信息对提出的问题进行答案,以及一些专业的技能型场景如钟表阅读、计数,对应地采用钟表读取专家和计数专家处理。这种设计能有效地协同多个专家模型拓宽模型性能边界,提高答案的准确度。并且,每种专家模型的编码层都采用注意力权重来动态控制模态间和模态内交互,以提高跨模态融合的性能。
附图说明
[0028]通过参考以下附图对本公开实施例的描述,本公开的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0029]图1示出了本公开实施例提供的混合专家模型的结构图;
[0030]图2示出了本公开实施例提出的专家模型的基本结构的示意图;
[0031]图3示出了一个示例性的混合专家模型的结构图;
[0032]图4示出了本公开实施例提供的视觉问答的实现方法的流程图;
[0033]图5示出了本公开实施例提供的基于视觉问答检验模型的方法;
[0034]图6示出了本公开实施例的应用示意图;
[0035]图7示出了部署本公开实施例的电子设备的结构图。
具体实施方式
[0036]以下基于实施例对本公开进行描述,但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
[0037]应该理解,用于应答VQA的专家模型是基于视觉语言的预训练模型构建而成。目前视觉语言模型有两种主流体系结构:单流体系结构(single

stream architecture)和双流体系结构(dual

stream architecture)。前者,假设两种模态背后有简单而清晰的基本语义,因此简单地将图像特征和文本特征连接起来,作为单个转换器的输入网络,以便以直接的方式进行早期融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答的实现方法,包括:采用混合专家模型接收目标问题以及与目标问题对应的富文本图片并输出目标问题的答案,所述混合专家模型包括门控网络和多个专家模型,其中,所述门控网络用于确定所述目标问题的问题类型,基于所述问题类型确认所述目标问题为多个问题类型中的第一问题类型,以及将所述目标问题提供给所述多个专家模型中的第一专家模型;所述第一专家模型用于提供所述目标问题的答案。2.根据权利要求1所述的实现方法,其中,所述专家模型包括:词嵌入表达模块、视觉编码器和变换器,所述词嵌入表达模块用于将所述目标问题编码为词嵌入序列,所述视觉编码器用于将所述富文本图片编码为视觉特征序列,所述变换器用于将所述词嵌入序列和所述视觉特征序列分别与注意力权重相乘,以得到分数矩阵,并根据所述分数矩阵确定所述目标问题的答案。3.根据权利要求2所述的实现方法,其中,所述词嵌入序列包含的每个词向量基于模态类型、对应词的位置信息和对应词的词嵌入得到,所述视觉特征序列包含的每个项同样基于模态类型、所述富文本图片的对应组成部分的位置信息和所述富文本图片的对应组成部分的视觉特征组成得到。4.根据权利要求3所述的实现方法,其中,在所述变换器中,通过不同的注意力权重控制模态间和模态内交互。5.根据权利要求2所述的实现方法,其中,所述富文本图片的对应组成部分的视觉特征为区域特征、网格特征和面片特征中的至少一种视觉特征。6.根据权利要求1至5任一项所述的实现方法,其中,所述多个专家为:文本阅读专家,用于回答与所述富文本图像中的文字信息相关的问题;计数专家,用于答案与所述富文本图片中的物体数量相关的问题;时钟读取专家,用于回答与所述富文本图片中的时钟时间相关的问题。7.根据权利要求6所述的实现方法,其中,所述计数专家和所述时钟读取专家分别从所述富文本图片中提取区域特征、网格特征和面片特征并对所述区域特征、所述网格特征和所述面片特征进行融合,并将融合结果与从所述目标问题中提取到到文本特征进行匹配。8.根据权利要求7所述的实现方法,其中,在所...

【专利技术属性】
技术研发人员:田俊峰严明徐海洋李晨亮王玮闭彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1