System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于场景图增强的多模态大模型场景理解方法技术_技高网

一种基于场景图增强的多模态大模型场景理解方法技术

技术编号:44292002 阅读:22 留言:0更新日期:2025-02-14 22:25
本发明专利技术涉及一种基于场景图增强的多模态大模型场景理解方法,属于跨模态信息融合与生成领域。首先,对输入图像进行预处理,将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像;其次,将有边界框与实体类别的图像传入场景图生成模型,生成初步实体关系并传入逻辑大模型进行修正,得到修正的实体关系;接着,根据图像内实体以及修正的实体关系构建场景图并传入提示大模型,生成基于场景图的提示文本;最后,将提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述。本发明专利技术可以有效增强多模态大模型图像场景理解能力。

【技术实现步骤摘要】

本专利技术涉及一种基于场景图增强的多模态大模型场景理解方法,属于跨模态信息融合与生成领域。


技术介绍

1、场景理解是计算机视觉领域中的核心研究方向,它涉及从图像和视频中提取深层次的语义信息,以实现对场景的全面认知。这一技术背景脱胎于深度学习的进步,尤其是卷积神经网络(cnn)和生成对抗网络(gan)的发展,使得机器能够从简单的图像识别跃迁到复杂的场景分析,包括目标识别、关系理解以及场景描述等任务。随着技术的发展,场景理解已经在自动驾驶、增强现实、机器人导航等多个领域展现出广泛的应用潜力,成为推动人工智能从感知到认知转变的关键技术之一。

2、多模态大模型通过整合和处理来自不同模态(如图像、文本、音频等)的数据,极大地增强了机器的场景理解能力。这些模型不仅能够识别和理解图像中的对象和场景,还能够结合文本和语音信息,提供更深层次的语义理解。这种跨模态的交互方式让机器变得更加智能和人性化,使得它们能够更全面地理解和互动世界。多模态大模型在场景理解方面的应用包括但不限于自动驾驶、医疗诊断、视频理解与处理等。因此强化多模态大模型的跨模态生成与理解能力就显得至关重要。然而,现有的多模态大模型由于受视觉不确定性影响,及当模型遇到视觉不确定情况时,模型会过度依赖预训练的文本信息,进而依据预训练文本而非实际情况做出判断,导致无法准确理解图像信息。此外,多模态大模型还受到了预训练数据集影响。大多数视觉-语言预训练数据集的构建主要基于mscoco,这本身就存在着对象分布不平衡和对象关联有偏见的问题。因此,现有的多模态大模型在处理图像信息时,会出现错误解读图像场景以及物体幻觉问题。在这一背景下,通过生成场景图能够有效增强多模态大模型对于图像内场景信息的理解,同时提升多模态大模型的跨模态生成能力。


技术实现思路

1、本专利技术要解决的技术问题是提供了一种基于场景图增强的多模态大模型场景理解方法,旨在应对现有的多模态大模型所面临的问题,包括无法准确正确理解图像内场景信息,物体幻觉等问题,从而实现对多模态大模型跨模态生成与理解能力的增强。通过引入开放词汇目标检测模型以及大语言模型,可以有效解决场景图生成模型在构建场景图时实体信息缺失,关系信息不准确等问题,构建出更加精准可靠的场景图。通过大语言模型根据场景图所生成的提示文本,可以有效辅助多模态大模型,强化其对于图像场景的理解能力,生成更加准确的描述文本。

2、本专利技术采用的技术方案是:一种基于场景图增强的多模态大模型场景理解方法,具体步骤为:

3、step1:对图像进行缩放处理,使图像尺寸符合开放词汇目标检测模型以及多模态大模型输入要求,得到符合模型输入标准的预处理图像;

4、step2:将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像;

5、step3:将有实体边界框与实体类别的图像传入卷积神经网络,生成初步实体关系;

6、step4:将初步实体关系传入逻辑大模型进行修正,得到修正的实体关系;

7、step5:根据图像内实体信息以及修正的实体关系构建场景图;

8、step6:将构建的场景图传入提示大模型,生成基于场景图的提示文本;

9、step7:将生成的提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述。

10、所述step1具体步骤为:

11、step1:对获取的图像数据进行缩放处理,使其图像尺寸符合开放词汇目标检测模型如yolo-world以及多模态大模型输入要求,获得预处理后的图像。

12、所述step3具体步骤为:

13、step3.1:将标注有实体边界框和实体类别的图像作为卷积神经网络(cnn)的输入;

14、step3.2:卷积神经网络读取图像,通过卷积核对图像进行卷积,获取图像实体类别编码,提取视觉特征;

15、step3.3:将提取到的视觉特征传入条件随机场(cfr)中,条件随机场通过像素之间的空间关系和颜色特征,增强实体上下文信息;

16、step3.4:利用增强过的实体上下文信息预测实体间关系,得到初步生成的实体关系。

17、所述step4具体步骤为:

18、step4.1:将初步生成的实体关系输入逻辑大模型中,所述逻辑大模型用于判断实体关系逻辑是否合理,如qwen2.5,glm-4-long等;

19、step4.2:逻辑大模型读取实体关系,识别语义信息,寻找不合逻辑的实体关系,并进行修改,得到修正后的实体关系

20、所述step5具体步骤为:

21、step5.1:将实体信息与修正后的实体关系融合,得到完整的实体关系三元组;

22、step5.2:将实体关系三元组作为图数据库neo4j的输入;

23、step5.3:根据输入构建场景图。

24、所述step6具体步骤为:

25、step6.1:将场景图以及初始提示文本作为生成提示大模型输入,所述生成提示大模型用于生成基于场景图的提示信息的大语言模型,如llama3.2,mixtral等;

26、step6.2:生成提示大模型读取场景图中的结构化信息;

27、step6.3:生成提示大模型识别场景图中字段信息,从中提取实体关系;

28、step6.4:生成提示大模型基于提示文本对实体关系进行扩充,将结构化信息转换为自然语言表述;

29、step6.5:生成提示大模型检查自然语言表述,通过理解语义信息,识别出逻辑上不合理或语义上不连贯的部分,并进行修改,得到表述流畅、逻辑连贯、语义清晰的自然语言表述;

30、step6.6:生成提示大模型复查自然语言表述,抽取自然语言表述中的实体关系,然后与场景图信息进行比对,检查自然语言表述是否准确反映了场景图内信息;

31、step6.7:生成提示大模型输出自然语言表述,生成基于场景图的提示文本。

32、所述step7具体步骤为:

33、step7.1:将生成的提示文本以及预处理图像作为多模态大模型的输入;

34、step7.2:多模态大模型读取预处理图像,并根据提示文本理解图像内容,最终生成图像描述,并作为结果输出。

35、本专利技术的有益效果是:以针对输入图像构建场景图的方式增强多模态大模型对于图像场景的理解能力,可以有效提高多模态大模型的跨模态检索,理解与生成能力;以开放词汇目标检测模型与大模型协同构建场景图,有效提高了实体与关系信息的全面性与准确性;以大模型根据场景图生成提示文本,有效增强了提示文本的准确性与事实性,可以有效提升多模态大模型的多模态理解能力。

本文档来自技高网...

【技术保护点】

1.一种基于场景图增强的多模态大模型场景理解方法,其特征在于:

2.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述Step3具体为:

3.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述Step4具体为:

4.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述Step5具体为:

5.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述Step6具体为:

6.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述Step7具体为:

【技术特征摘要】

1.一种基于场景图增强的多模态大模型场景理解方法,其特征在于:

2.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述step3具体为:

3.根据权利要求1所述的一种基于场景图增强的多模态大模型场景理解方法,其特征在于,所述step4具体为:

4.根据权利要...

【专利技术属性】
技术研发人员:王青旺朱秋百袁海滨李朝辉刘庆东刘艺沈韬朱中亮王明江钟华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1