System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像处理方法、装置、设备以及存储介质制造方法及图纸_技高网

图像处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:40395639 阅读:8 留言:0更新日期:2024-02-20 22:24
本申请实施例公开了一种图像处理方法、装置、设备以及存储介质,可应用于人工智能领域。该方法包括:确定目标图像;识别目标图像中包含的图像元素、以及每个图像元素的位置信息;基于每个图像元素以及每个图像元素的位置信息,生成图像描述信息的提示信息;将目标图像和提示信息输入多模态大模型,得到用于对目标图像的图像内容进行描述的图像描述信息。采用本申请实施例,可生成用于对图像的图像内容进行准确描述的图像描述信息,适用性高。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种图像处理方法、装置、设备以及存储介质


技术介绍

1、在当前的图像处理
,通常可以将图像作为多模态大模型的输入,由多模态大模型输出用于对图像的图像内容进行描述的描述文本。由于图像包含的内容多种多样,现有的多模态大模型难以对图像的各项特征内容进行准确感知,从而无法生成准确的描述文本。

2、基于此,如何进一步通过多模态大模型准确对图像内容进行描述成为关键问题。


技术实现思路

1、本申请实施例提供一种图像处理方法、装置、设备以及存储介质,可生成用于对图像的图像内容进行准确描述的图像描述信息,适用性高。

2、一方面,本申请实施例提供一种图像处理方法,该方法包括:

3、确定目标图像;

4、识别上述目标图像中包含的图像元素、以及每个上述图像元素的位置信息;

5、基于每个上述图像元素以及每个上述图像元素的位置信息,生成图像描述信息的提示信息;

6、将上述目标图像和上述提示信息输入多模态大模型,得到用于对上述目标图像的图像内容进行描述的图像描述信息。

7、另一方面,本申请实施例提供了一种图像处理装置,该装置包括:

8、信息获取模块,用于确定目标图像;

9、图像识别模块,用于识别上述目标图像中包含的图像元素、以及每个上述图像元素的位置信息;

10、信息处理模块,用于基于每个上述图像元素以及每个上述图像元素的位置信息,生成图像描述信息的提示信息;

11、信息生成模块,用于将上述目标图像和上述提示信息输入多模态大模型,得到用于对上述目标图像的图像内容进行描述的图像描述信息。

12、另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;

13、上述存储器用于存储计算机程序;

14、上述处理器用于在调用上述计算机程序时,执行本申请实施例提供的图像处理方法。

15、另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的图像处理方法。

16、另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的图像处理方法。

17、在本申请实施例中,利用从目标图像识别的图像元素和位置信息,可得到用于对图像描述信息的提示信息,进而将目标图像和提示信息输入多模态大模型之后,可使得多模态大模型根据提示信息对目标图像中的图像元素及其位置信息进行准确感知,从而可以生成能够准确对目标图像的图像内容进行描述的图像描述信息,提升图像描述信息的准确性。

本文档来自技高网...

【技术保护点】

1.一种图像处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多模态大模型是基于以下方式训练得到的:

3.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,所述多模态大模型是基于以下方式确定该样本图像的图像描述信息的:

4.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,确定该样本图像与相应图像描述信息的预测图文匹配度,包括以下至少一项:

5.根据权利要求2所述的方法,其特征在于,所述根据每个所述样本图像对应的实际图文匹配度和预测图文匹配度确定总训练损失,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1所述的方法,其特征在于,所述方法还包括:

11.一种图像处理装置,其特征在于,所述装置包括

12.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至10任一项所述的方法。

14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。

...

【技术特征摘要】

1.一种图像处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多模态大模型是基于以下方式训练得到的:

3.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,所述多模态大模型是基于以下方式确定该样本图像的图像描述信息的:

4.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,确定该样本图像与相应图像描述信息的预测图文匹配度,包括以下至少一项:

5.根据权利要求2所述的方法,其特征在于,所述根据每个所述样本图像对应的实际图文匹配度和预测图文匹配度确定总训练损失,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:汪翔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1