【技术实现步骤摘要】
视觉问答的实现方法和基于视觉问答检验模型的方法
[0001]本公开涉及神经网络模型的应用领域,尤其涉及一种视觉问答的实现方法和基于视觉问答检验模型的方法。
技术介绍
[0002]视觉问答(VQA)将图像和关于图像的形式自由的、开放式的自然语言问题作为输入,生成自然语言答案作为输出,例如给定一张图像和一系列问题,要求机器根据图像内容,结合一些常识来推理得到问题答案。要完成视觉问答(VQA),需要具备人工智能能力的专家模型。但是专家模型往往对一些问题表现良好,但对另一些问题表现不佳。
技术实现思路
[0003]有鉴于此,本公开旨在提供一种视觉问答的实现方法和基于视觉问答检验模型的方法,以解决现存的技术问题。
[0004]根据本公开的第一方面,提供一种视觉问答的实现方法,包括:采用混合专家模型接收目标问题以及与目标问题对应的富文本图片并输出目标问题的答案,其中,所述混合专家模型包括门控网络和多个专家模型,其中,
[0005]所述门控网络用于确定所述目标问题的问题类型,基于所述问题类型确认所述目标问题 ...
【技术保护点】
【技术特征摘要】
1.一种视觉问答的实现方法,包括:采用混合专家模型接收目标问题以及与目标问题对应的富文本图片并输出目标问题的答案,所述混合专家模型包括门控网络和多个专家模型,其中,所述门控网络用于确定所述目标问题的问题类型,基于所述问题类型确认所述目标问题为多个问题类型中的第一问题类型,以及将所述目标问题提供给所述多个专家模型中的第一专家模型;所述第一专家模型用于提供所述目标问题的答案。2.根据权利要求1所述的实现方法,其中,所述专家模型包括:词嵌入表达模块、视觉编码器和变换器,所述词嵌入表达模块用于将所述目标问题编码为词嵌入序列,所述视觉编码器用于将所述富文本图片编码为视觉特征序列,所述变换器用于将所述词嵌入序列和所述视觉特征序列分别与注意力权重相乘,以得到分数矩阵,并根据所述分数矩阵确定所述目标问题的答案。3.根据权利要求2所述的实现方法,其中,所述词嵌入序列包含的每个词向量基于模态类型、对应词的位置信息和对应词的词嵌入得到,所述视觉特征序列包含的每个项同样基于模态类型、所述富文本图片的对应组成部分的位置信息和所述富文本图片的对应组成部分的视觉特征组成得到。4.根据权利要求3所述的实现方法,其中,在所述变换器中,通过不同的注意力权重控制模态间和模态内交互。5.根据权利要求2所述的实现方法,其中,所述富文本图片的对应组成部分的视觉特征为区域特征、网格特征和面片特征中的至少一种视觉特征。6.根据权利要求1至5任一项所述的实现方法,其中,所述多个专家为:文本阅读专家,用于回答与所述富文本图像中的文字信息相关的问题;计数专家,用于答案与所述富文本图片中的物体数量相关的问题;时钟读取专家,用于回答与所述富文本图片中的时钟时间相关的问题。7.根据权利要求6所述的实现方法,其中,所述计数专家和所述时钟读取专家分别从所述富文本图片中提取区域特征、网格特征和面片特征并对所述区域特征、所述网格特征和所述面片特征进行融合,并将融合结果与从所述目标问题中提取到到文本特征进行匹配。8.根据权利要求7所述的实现方法,其中,在所...
【专利技术属性】
技术研发人员:田俊峰,严明,徐海洋,李晨亮,王玮,闭彬,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。