图像处理方法、图像生成方法、电子设备及存储介质技术

技术编号：43325115 阅读：29 留言：0更新日期：2024-11-15 20:24

本申请公开了一种图像处理方法、图像生成方法、电子设备及存储介质，涉及大模型技术中的图像处理领域。其中，该方法包括：获取待渲染文本的图像；利用多模态模型基于待渲染文本的图像进行文本生成，得到多个关键点和多个关键点对应的生成文本；利用多模态模型对多个关键点和多个关键点对应的生成文本进行处理，得到目标文本区域和目标文本区域对应的目标生成文本；基于目标文本区域将目标生成文本与待渲染文本的图像进行融合，得到目标图像。本申请解决了相关技术中由于生成文字后的生成图像与原始图像的差异较大，导致基于生成图像对原始图像进行后续处理的处理效果变差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大模型技术中的图像处理领域，具体而言，涉及一种图像处理方法、图像生成方法、电子设备及存储介质。

技术介绍

1、场景文本是视觉文本相关研究领域中具有挑战性的研究对象之一，这一领域的研究一直受制于真实世界数据的不足。在真实世界背景图像上合成视觉文本是目前工作的解决方案。在语义层面，目前在生成场景文本的过程中，虽然可以使用各种方法在真实世界背景图像中找到背景图像纹理一致的区域，然后在该区域生成场景文字，但是仍然会出现在天空等不应该出现文字的区域中生成场景文字的情况。此外，生成的文本内容往往都是从语料库中随机挑选的内容，往往与真实世界背景图像的语义无关，这也不符合真实世界的情况。这些都会导致生成图像与真实图像之间的差异较大，而这种与真实图像有较大差异的生成图像用于下游任务时会造成数据的偏移进而影响在下游任务上的效果。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种图像处理方法、图像生成方法、电子设备及存储介质，以至少解决相关技术中由...

【技术保护点】

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用多模态模型基于所述待渲染文本的图像进行文本生成，得到多个关键点和所述多个关键点对应的生成文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述多模态模型基于所述第一提示信息和所述待渲染文本的图像进行文本生成，得到所述多个关键点和所述多个关键点对应的生成文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述多模态模型对所述多个关键点和所述多个关键点对应的生成文本进行处理，得到目标文本区域和所述目标文本区域对应的目标生

【技术特征摘要】

1.一种图像处理方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述多模态模型对所述多个关键点和所述多个关键点对应的生成文本进行处理，得到目标文本区域和所述目标文本区域对应的目标生成文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述多模态模型基于所述第二提示信息对所述多个关键点和所述多个关键点对应的生成文本进行处理，得到所述目标文本区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本区域将所述目标生成文本与所述待渲染文本的图像进行融合，得到目标图像，包括：

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：<...

【专利技术属性】
技术研发人员：刘佳伟，高飞宇，朱远志，杨志博，姚聪，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人