视觉问答的方法、装置、设备及介质制造方法及图纸

技术编号：34818559 阅读：20 留言：0更新日期：2022-09-03 20:29

本发明专利技术涉及人工智能技术领域，公开了一种视觉问答的方法、装置、设备及介质，包括：获取视觉问答任务对应的目标问句和目标图像；对目标问句进行特征提取得到目标问句对应的句向量和词向量，和，对目标图像进行特征提取得到目标图像对应的图像向量和图像块向量；将句向量和图像块向量同时输入视觉问答模型的多模态交互学习部分，得到目标问句对应的问句交互向量；和，将图像向量和词向量同时输入视觉问答模型的多模态交互学习部分，得到目标图像对应的图像交互向量；通过视觉问答模型的分类单元，根据图像交互向量和问句交互向量，得到视觉问答任务的答案。提升视觉问答任务的答案的准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答的方法、装置、设备及介质

[0001]本专利技术涉及人工智能技术、自然语言处理
，尤其涉及一种视觉问答的方法、装置、设备及介质。

技术介绍

[0002]随着计算机视觉技术以及自然语言处理技术的不断发展，使得研究领域变得越来越深入，视觉问答(VisualQuestionAnswering，VQA)是最近几年出现的一个新任务，视觉问答任务为向视觉问答系统的输入为一张图像和一个关于这张图像形式自由、开放式的自然语言问题，经过系统处理后提供一个准确的自然语言答案作为输出，也即是基于一张图像的问答处理。因此视觉问答系统不仅要理解文字形式提出的问题，还需要进行图像处理并结合图像的内容进行解答。
[0003]总结来说，虽然目前的视觉问答研究取得了一些成就，但是就目前发展形势来看，还是面临有一定的发展局限性，主要有以下两个问题：
[0004](1)推理能力不强。由于大多数VQA方法会将视觉图像数据、文本问题数据，做特征提取后再在最后阶段拼接起来，结合答案标签建立模型进行训练。不能够将问题语义具有的特征和图片像特征较完美的融合起来，导致高层次的逻辑推理出现时，模型往往不能给出正确的预测。
[0005](2)深度学习的不可解释性。这是深度学习共同的问题，尽管深度学习目前被广泛应用，但是其不可解释性也是深度学习继续发展的局限，没法较好地对视觉信号、问题的文本信号进行有效的交互理解和建模。

技术实现思路

[0006]本专利技术提供一种视觉问答的方法、装置、计算机设备及介质，以解决将文本特...

【技术保护点】

【技术特征摘要】
1.一种视觉问答的方法，其特征在于，包括：获取视觉问答任务对应的目标问句和目标图像；通过预训练好的视觉问答模型的特征提取部分，对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量，和，对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量；将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标问句对应的问句交互向量；和，将所述图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标图像对应的图像交互向量；通过所述视觉问答模型的分类单元，根据所述图像交互向量和所述问句交互向量，得到所述视觉问答任务的答案。2.如权利要求1所述的视觉问答的方法，其特征在于，所述特征提取部分包括Transformer模块；所述通过预训练好的视觉问答模型的特征提取部分，对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量，包括：将所述目标问句输入所述Transformer模块，得到所述句向量；对所述目标问句划分为多个分词，将所述分词输入所述Transformer模块，得到所述词向量。3.如权利要求1所述的视觉问答的方法，其特征在于，所述特征提取部分包括视觉Transformer模块；所述通过预训练好的视觉问答模型的特征提取部分，对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量，包括：将所述目标图像输入所述视觉Transformer模块，得到所述图像向量；将所述目标图像划分为多个图像块，将所述多个图像块输入所述视觉Transformer模块，得到所述图像块向量。4.如权利要求1所述的视觉问答的方法，其特征在于，所述将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标问句对应的问句交互向量，包括：将所述句向量和所述图像块向量同时输入所述基于多头注意力机制的句子特征提取模块，根据所述图像块向量分配所述问句特征提取的注意力权重，得到所述目标图像对应的图像交互向量。5.如权利要求1所述的视觉问答的方法，其特征在于，所述多模态交互学习部分包括基于多头注意力机制的图像特征提取模块；将所述图像向...

【专利技术属性】
技术研发人员：王俊，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人