【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种图像处理方法、装置、设备以及存储介质。
技术介绍
1、在当前的图像处理
,通常可以将图像作为多模态大模型的输入,由多模态大模型输出用于对图像的图像内容进行描述的描述文本。由于图像包含的内容多种多样,现有的多模态大模型难以对图像的各项特征内容进行准确感知,从而无法生成准确的描述文本。
2、基于此,如何进一步通过多模态大模型准确对图像内容进行描述成为关键问题。
技术实现思路
1、本申请实施例提供一种图像处理方法、装置、设备以及存储介质,可生成用于对图像的图像内容进行准确描述的图像描述信息,适用性高。
2、一方面,本申请实施例提供一种图像处理方法,该方法包括:
3、确定目标图像;
4、识别上述目标图像中包含的图像元素、以及每个上述图像元素的位置信息;
5、基于每个上述图像元素以及每个上述图像元素的位置信息,生成图像描述信息的提示信息;
6、将上述目标图像和上述提示信息输入多模态大模型
...【技术保护点】
1.一种图像处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多模态大模型是基于以下方式训练得到的:
3.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,所述多模态大模型是基于以下方式确定该样本图像的图像描述信息的:
4.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,确定该样本图像与相应图像描述信息的预测图文匹配度,包括以下至少一项:
5.根据权利要求2所述的方法,其特征在于,所述根据每个所述样本图像对应的实际图文匹配度和预测图文匹配度确定总训练损失,包括:
...【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多模态大模型是基于以下方式训练得到的:
3.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,所述多模态大模型是基于以下方式确定该样本图像的图像描述信息的:
4.根据权利要求2所述的方法,其特征在于,对于每个所述样本图像,确定该样本图像与相应图像描述信息的预测图文匹配度,包括以下至少一项:
5.根据权利要求2所述的方法,其特征在于,所述根据每个所述样本图像对应的实际图文匹配度和预测图文匹配度确定总训练损失,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:汪翔,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。