一种视觉问答方法、装置、设备及介质制造方法及图纸

技术编号：40909552 阅读：23 留言：0更新日期：2024-04-18 14:38

本发明专利技术公开了一种视觉问答方法，包括：对待处理图像和待处理文本问题进行特征提取，得到图像特征和文本问题特征；对所述图像特征和所述文本问题特征进行特征融合，得到第一特征向量；对待处理图像进行特征提取，得到第二特征向量；基于所述第一特征向量通过预测模型进行结果预测得到第一预测结果，基于所述第二特征向量通过预测模型进行结果预测得到第二预测结果；对所述第一预测结果与第二预测结果进行软投票，得到目标预测结果。本发明专利技术能够在视觉问答时保留特征融合前的完整图像特征，避免损失数据集中的重要信息，且能够进行多模态的有效交互，提高最终输出结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理与图像处理交叉的深度学习，具体涉及一种视觉问答方法、装置、设备及介质。

技术介绍

1、vqa(visual question answering，视觉问答)是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理，包括图像识别、图像分类等任务。自然语言处理主要是对自然语言、文本形式的内容进行处理以及理解，包括机器翻译、信息检索、生成文本摘要等任务。视觉问答需要对给定图像和问题进行处理，经过一定的视觉问答技术处理过后生成自然语言答案，是对二者的结合。

2、医疗视觉问答能够为经验不足的医学生或年轻医师提供辅助判断，也能为患者提供较为权威的解答。现有的医疗视觉问答通常从文本和图像两种特征有效提取的模型上改进，虽然一定程度上实现了输出结果准确率的提高，但是忽略了特征交互前的完整特征保留，从而可能损失很多解答的重要信息。

技术实现思路

1、鉴于以上所述现有技术的缺点，本专利技术提供一种视觉问答方法、一种视觉问答装置、一种视觉问答设备及一种...

【技术保护点】

1.一种视觉问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视觉问答方法，其特征在于，对所述图像特征和所述文本问题特征进行特征融合，包括：

3.根据权利要求1所述的视觉问答方法，其特征在于，对待处理图像进行特征提取，得到第二特征向量，基于所述第二特征向量进行结果预测得到第二预测结果包括：

4.根据权利要求3所述的视觉问答方法，其特征在于，所述损失函数的表达式为：

5.根据权利要求1所述的视觉问答方法，其特征在于，对预测模型进行评估的步骤包括：

6.根据权利要求1所述的视觉问答方法，其特征在于，利用VGG16模型对待...

【技术特征摘要】

1.一种视觉问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视觉问答方法，其特征在于，对所述图像特征和所述文本问题特征进行特征融合，包括：

4.根据权利要求3所述的视觉问答方法，其特征在于，所述损失函数的表达式为：

5.根据权利要求1所述的视觉问答方法，其特征在于，对预测模型进行评估的步骤包括：

6.根据权利...

【专利技术属性】
技术研发人员：李解，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人