基于多模态层次结构表示和对齐的视觉问答方法与系统技术方案

技术编号：40429777 阅读：5 留言：0更新日期：2024-02-20 22:51

本发明专利技术涉及视觉问答技术领域，公开了一种基于多模态层次结构表示和对齐的视觉问答方法与系统，包括对原始语言问题进行语义解析，得到语言问题特征；对原始图像进行图像处理，得到视觉图像特征；通过分层交互推理，将所述语言问题特征和所述视觉图像特征进行映射，得到视觉问答特征；将所述视觉问答特征输入答案决策模型进行答案预测，得到视觉问答的答案。本发明专利技术通过多层次的语言理解和解析以及图像解析过程，有效地捕捉了问题中的复杂结构和语义关系以及图像的多模态理解，并通过多层次的视觉语义推理，精细地理解图像和问题之间的关系，从而有效提高了模型的语义理解和问题回答能力，为视觉问答任务提供了更高的性能和可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉问答，特别是涉及一种基于多模态层次结构表示和对齐的视觉问答方法与系统。

技术介绍

1、视觉问答(visual question answering，vqa)是一种融合了计算机视觉和自然语言处理的交叉领域技术，其目标是让计算机能够理解并回答与图像相关的自然语言问题。视觉问答领域涉及了多种技术，包括图像处理、深度学习、自然语言处理、知识表示等，以实现图像和问题之间的跨模态理解。

2、当前人工智能在视觉问答方面的应用主要还是依靠数据驱动的深度学习模型，实现vqa任务的一般方法涉及以下几个步骤：准备一个包含图像、问题和答案的数据集；使用神经网络对图像样本集进行特征提取；对于问题数据，需要对问题进行自然语言处理，包括分词、词嵌入和语法分析等操作；设计方法将图像和问题这两个模态的特征结合在一起，构建模型通过最小化预测答案和实际答案之间的损失函数来训练模型。

3、而当前的这种学习模型所存在的问题在于，一方面是视觉问答针对的场景可以是真实世界，其涉及的对象和可能产生的问题比数据集复杂得多，搜集一个能够覆盖所有情况的数据集几乎不可能；另一方面则是缺少对输入的语言文本加入认知的过程，没有将其解析成可解释易于显式表达的形式，仅仅依靠大数据学习基于数据集的数据分布。这样不仅丧失了模型的一部分可解释性，也不能确保模型在训练过程中完全理解自然语言问题所表达的含义，这可能会导致模型在处理复杂问题时出现不准确或误导性的答案；第三方面则是在图像和文本两个模态的特征融合部分，现有方法通常关注对特征的整体对齐，但是这种方法不

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种基于多模态层次结构表示和对齐的视觉问答方法与系统，以能够解决现有技术缺少对语言的理解和解析、多模态特征融合方式局限的问题，达到提升视觉问答的问答效率和可解释性的效果。

2、第一方面，本专利技术提供了一种基于多模态层次结构表示和对齐的视觉问答方法，所述方法包括：

3、对原始语言问题进行语义解析，得到语言问题特征；

4、对原始图像进行图像处理，得到视觉图像特征；

5、通过分层交互推理，将所述语言问题特征和所述视觉图像特征进行映射，得到视觉问答特征；

6、将所述视觉问答特征输入答案决策模型进行答案预测，得到视觉问答的答案。

7、进一步地，所述对原始语言问题进行语义解析，得到语言问题特征的步骤包括：

8、对原始语言问题进行分词，将分词后的各个单词输入门控循环单元进行分析，得到问题全局特征；

9、对各个单词进行过滤，并将过滤得到的单词序列进行词嵌入，得到单词特征；

10、对原始语言问题进行语义分析，得到语义解析树，并根据所述语义解析树，得到语义关系特征。

11、进一步地，所述对原始图像进行图像处理，得到视觉图像特征的步骤包括：

12、通过目标检测模型对原始图像进行对象提取，得到对象特征；

13、采用全景场景图生成方法对原始图像的各个对象之间的关系进行分析，得到对象关系特征；

14、通过第一视觉语言预训练模型对原始图像的全局信息进行提取，得到图像全局特征。

15、进一步地，所述通过分层交互推理，将所述语言问题特征和所述视觉图像特征进行映射，得到视觉问答特征的步骤包括：

16、将所述单词特征和所述对象特征进行对象语义对齐，得到多模态特征；

17、将所述语义关系特征和所述对象关系特征进行关系语义对齐，得到融合特征；

18、将所述问题全局特征和所述图像全局特征进行全局对齐，得到全局对齐特征。

19、进一步地，所述将所述单词特征和所述对象特征进行对象语义对齐，得到多模态特征的步骤包括：

20、通过第二视觉语言预训练模型对所述原始语言问题、所述单词特征和所述对象特征进行融合，得到多模态特征。

21、进一步地，所述将所述语义关系特征和所述对象关系特征进行关系语义对齐，得到融合特征的步骤包括：

22、通过预训练模型对所述原始语言问题、所述语义关系特征和所述对象关系特征进行融合，得到融合特征。

23、进一步地，所述将所述问题全局特征和所述图像全局特征进行全局对齐，得到全局对齐特征的步骤包括：

24、通过双线性注意力网络将所述问题全局特征和所述对象特征进行融合，并将融合后的特征与所述图像全局特征进行连接，得到全局对齐特征。

25、进一步地，所述将所述视觉问答特征输入答案决策模型进行答案预测，得到视觉问答的答案的步骤包括：

26、将所述多模态特征输入第一分类器进行分类，得到第一分类结果；

27、将所述融合特征输入第二分类器进行分类，得到第二分类结果；

28、将所述全局对齐特征输入第三分类进行分类，得到第三分类结果；

29、将所述第一分类结果、所述第二分类结果和所述第三分类结果进行拼接，并根据权重矩阵对拼接后的分类结果进行计算，得到视觉问答的答案。

30、第二方面，本专利技术提供了一种基于多模态层次结构表示和对齐的视觉问答系统，所述系统包括：

31、语义解析模块，用于对原始语言问题进行语义解析，得到语言问题特征；

32、图像特征表示模块，用于对原始图像进行图像处理，得到视觉图像特征；

33、分层交互推理模块，用于通过分层交互推理，将所述语言问题特征和所述视觉图像特征进行映射，得到视觉问答特征；

34、答案预测模块，用于将所述视觉问答特征输入答案决策模型进行答案预测，得到视觉问答的答案。

35、第三方面，本专利技术实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

36、本专利技术提供了一种基于多模态层次结构表示和对齐的视觉问答方法与系统。本专利技术通过多层次的语言理解和解析过程，能够有效捕捉问题中的复杂结构和语义关系，并通过多层次的图像解析过程，更好地与文本内容的融合，实现深度的多模态理解，同时通过多模态的特征表示与对齐策略将图像与文本信息进行融合，确保每个模态的信息都得到了充分利用，更好地处理局部信息和全局关系，从而提高了答案的准确性，进一步提升了视觉问答的问答效率和可解释性。

本文档来自技高网...

【技术保护点】

1.一种基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述对原始语言问题进行语义解析，得到语言问题特征的步骤包括：

3.根据权利要求2所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述对原始图像进行图像处理，得到视觉图像特征的步骤包括：

4.根据权利要求3所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述通过分层交互推理，将所述语言问题特征和所述视觉图像特征进行映射，得到视觉问答特征的步骤包括：

5.根据权利要求4所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述将所述单词特征和所述对象特征进行对象语义对齐，得到多模态特征的步骤包括：

6.根据权利要求4所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述将所述语义关系特征和所述对象关系特征进行关系语义对齐，得到融合特征的步骤包括：

7.根据权利要求4所述的基于多模态层次结构表示和对齐的视觉问答方法，其

8.根据权利要求4所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述将所述视觉问答特征输入答案决策模型进行答案预测，得到视觉问答的答案的步骤包括：

9.一种基于多模态层次结构表示和对齐的视觉问答系统，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，包括：

3.根据权利要求2所述的基于多模态层次结构表示和对齐的视觉问答方法，其特征在于，所述对原始图像进行图像处理，得到视觉图像特征的步骤包括：

6.根据权利要求4...

【专利技术属性】
技术研发人员：谢雪梅，沈晨阳，韩泽芳，黄继磊，
申请(专利权)人：西安电子科技大学广州研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人