图像处理方法及装置制造方法及图纸

技术编号：41241060 阅读：3 留言：0更新日期：2024-05-09 23:53

本说明书实施例提供图像处理方法及装置，其中所述图像处理方法包括：接收初始待处理图像和初始待处理图像对应的图像引导文本；生成初始待处理图像对应的参考待处理图像，其中，参考待处理图像的图像分辨率小于初始待处理图像的图像分辨率；将初始待处理图像、参考待处理图像和图像引导文本输入至图像处理模型，获得初始预测词汇分布信息和参考预测词汇分布信息；根据初始预测词汇分布信息和参考预测词汇分布信息确定目标预测词汇分布信息；根据目标预测词汇分布信息和图像引导文本，生成初始待处理图像对应的图像内容文本。通过本说明书提供的方法，可以有效的减少大量的人力和计算成本，相比于现有的对象幻觉处理方式更加简单有效。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及图像处理，特别涉及一种图像处理方法。

技术介绍

1、大型视觉语言模型(large vision-language models，lvlms)是一种结合视觉识别和语言理解的模型，它能生成即连贯又与上下文相关的内容，大型视觉语言模型在计算机视觉和自然语言处理的交叉领域取得了重要的进展，然后大型视觉语言模型中的对象幻觉是一个显著问题，影响了lvlms在不同领域中的可靠性和适用性。

2、对象幻觉指的是lvlms生成的文本内容虽然语义上连贯，但是与给定图像中的实际对象不一致，在需要精确和可靠的内容生成应用中，如医疗保健、自主系统和机器人
，对象幻觉可能导致严重的错误、误解和随后的错误决策，从而导致严重的后果。因此，如何解决对象幻觉对于提高lvlms在现实生活场景中的完整性、可靠性和广泛适用性就起到了至关重要的作用。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种图像处理方法。本说明书一个或者多个实施例同时涉及一种图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

3、接收初始待处理图像和所述初始待处理图像对应的图像引导文本；

4、生成所述初始待处理图像对应的参考待处理图像，其中，所述参考待处理图像的图像分辨率小于所述初始待处理图像的图像分辨率；

5、将所述初始待处理图像、所述参考待处理图

6、根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息；

7、根据所述目标预测词汇分布信息和所述图像引导文本，生成所述初始待处理图像对应的图像内容文本。

8、根据本说明书实施例的第二方面，提供了一种图像处理方法，应用于云侧设备，包括：

9、接收用户发送的初始待处理图像和所述初始待处理图像对应的图像引导文本；

10、生成所述初始待处理图像对应的参考待处理图像，其中，所述参考待处理图像的图像分辨率小于所述初始待处理图像的图像分辨率；

11、将所述初始待处理图像、所述参考待处理图像和所述图像引导文本输入至图像处理模型，获得所述图像处理模型输出的初始预测词汇分布信息和参考预测词汇分布信息；

12、根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息；

13、根据所述目标预测词汇分布信息和所述图像引导文本，生成所述初始待处理图像对应的图像内容文本，向所述用户发送所述图像内容文本。

14、根据本说明书实施例的第三方面，提供了一种图像处理装置，包括：

15、接收模块，被配置为接收初始待处理图像和所述初始待处理图像对应的图像引导文本；

16、图像生成模块，被配置为生成所述初始待处理图像对应的参考待处理图像，其中，所述参考待处理图像的图像分辨率小于所述初始待处理图像的图像分辨率；

17、模型处理模块，被配置为将所述初始待处理图像、所述参考待处理图像和所述图像引导文本输入至图像处理模型，获得所述图像处理模型输出的初始预测词汇分布信息和参考预测词汇分布信息；

18、确定模块，被配置为根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息；

19、文本生成模块，被配置为根据所述目标预测词汇分布信息和所述图像引导文本，生成所述初始待处理图像对应的图像内容文本。

20、根据本说明书实施例的第四方面，提供了一种计算设备，包括：

21、存储器和处理器；

22、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

23、根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像处理方法的步骤。

24、根据本说明书实施例的第六方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

25、本说明书一个实施例提供的图像处理方法，包括接收初始待处理图像和所述初始待处理图像对应的图像引导文本；生成所述初始待处理图像对应的参考待处理图像，其中，所述参考待处理图像的图像分辨率小于所述初始待处理图像的图像分辨率；将所述初始待处理图像、所述参考待处理图像和所述图像引导文本输入至图像处理模型，获得所述图像处理模型输出的初始预测词汇分布信息和参考预测词汇分布信息；根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息；根据所述目标预测词汇分布信息和所述图像引导文本，生成所述初始待处理图像对应的图像内容文本。

26、通过本说明书实施例提供的方法，提出了用图像分辨率较小的参考待处理图像与初始待处理图像分别经过图像处理模型处理后，获得初始预测词汇分布信息和参考预测词汇分布信息，通过比对机制，处理初始预测词汇分布信息和参考预测词汇分布信息，生成目标预测词汇分布信息，提供了一种校正图像处理模型过度依赖单模态先验和统计偏差的有效方法，可以有效的减少大量的人力和计算成本，相比于现有的对象幻觉处理方式更加简单有效。

本文档来自技高网...

【技术保护点】

1.一种图像处理方法，包括：

2.如权利要求1所述的方法，生成所述初始待处理图像对应的参考待处理图像，包括：

3.如权利要求1所述的方法，将所述初始待处理图像、所述参考待处理图像和所述图像引导文本输入至图像处理模型，获得所述图像处理模型输出的初始预测词汇分布信息和参考预测词汇分布信息，包括：

4.如权利要求1所述的方法，根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息，包括：

5.如权利要求4所述的方法，根据所述加权系数、所述初始预测分数和所述参考预测分数计算所述待处理预测词汇对应的目标预测分数，包括：

6.如权利要求4所述的方法，确定待处理预测词汇，包括：

7.如权利要求6所述的方法，所述预设词汇分布概率阈值通过下述步骤确定：

8.如权利要求1所述的方法，根据所述目标预测词汇分布信息和所述图像引导文本，生成所述初始待处理图像对应的图像内容文本，包括：

9.如权利要求1所述的方法，还包括：

10.如权利要求9所述的方法，所述运行停止条件包括：</p>

11.一种图像处理方法，应用于云侧设备，包括：

12.一种图像处理装置，包括：

13.一种计算设备，包括：

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种图像处理方法，包括：

2.如权利要求1所述的方法，生成所述初始待处理图像对应的参考待处理图像，包括：

4.如权利要求1所述的方法，根据所述初始预测词汇分布信息和所述参考预测词汇分布信息确定目标预测词汇分布信息，包括：

5.如权利要求4所述的方法，根据所述加权系数、所述初始预测分数和所述参考预测分数计算所述待处理预测词汇对应的目标预测分数，包括：

6.如权利要求4所述的方法，确定待处理预测...

【专利技术属性】
技术研发人员：张航，冷思聪，李昕，陈官正，邴立东，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人