【技术实现步骤摘要】
本专利技术涉及计算机视觉问答,特别是涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。
技术介绍
1、随着计算机视觉和自然语言处理领域的蓬勃发展,视觉问答(visual_question_answering,vqa)作为融合多模态信息的前沿任务受到了学术界和工业界的广泛关注。vqa不仅要求计算机系统理解图像内容,还要求计算机系统理解自然语言问题并提供准确的响应,从而涉及跨模态信息理解和推理的复杂任务。在传统的视觉问答(vqa)任务中,模型主要依赖图像和问题之间的局部信息。然而,随着问题的复杂性和多样性的增加,仅依赖图像和问题的局部信息往往无法满足任务需求。为了提高视觉问答系统的性能和鲁棒性,越来越多的研究探索如何结合外部知识来辅助问题理解和答案推理,即基于知识的视觉问答(knowledge-basedvisual questionanswering,kb-vqa),旨在利用文本语料库、知识图谱和网络资源等丰富的外部知识资源来丰富问题和图像的语义表示,从而提高系统理解和回答复杂问题的能力。
2、目前,主要是需要将基于知识
...【技术保护点】
1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:
3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:
5.根据权利要求
...【技术特征摘要】
1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:
3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:
5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量tucker融合方法对所述综合视觉特征、文...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。