图像处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：43545531 阅读：14 留言：0更新日期：2024-12-03 12:26

本公开提供了一种图像处理方法，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型、生成模型技术领域。具体实现方案为：识别图像中的文本，得到图像识别文本；识别图像中的视觉对象，得到图像的视觉描述文本；根据视觉对象，获取用于处理图像的提示文本；根据图像识别文本、视觉描述文本和提示文本，生成图像处理结果。本公开还提供了一种图像处理装置、电子设备和存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习、大模型、生成模型。更具体地，本公开提供了一种图像处理方法、装置、电子设备、存储介质以及计算机程序产品。

技术介绍

1、目前图像分析技术通常限于简单的对象识别和基本文本提取，缺乏对图像中复杂元素的深度理解和全面处理。尤其在处理含有混合内容（如文本、图表、代码等）的图像时，目前图像分析技术往往无法准确识别和有效分析图像内容。

技术实现思路

1、本公开提供了一种图像处理方法、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面，提供了一种图像处理方法，该方法包括：识别图像中的文本，得到图像识别文本；识别图像中的视觉对象，得到图像的视觉描述文本；根据视觉对象，获取用于处理图像的提示文本；根据图像识别文本、视觉描述文本和提示文本，生成图像处理结果。

3、根据第二方面，提供了一种图像处理装置，该装置包括：第一识别模块，用于识别图像中的文本，得到图像识别文本；第二识别模块，用于识别图像中的视觉对象，得到图像的视觉描述文本...

【技术保护点】

1.一种图像处理方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述图像识别文本、所述视觉描述文本和所述提示文本，生成图像处理结果包括：

3.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

4.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

5.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

6.根据权利要求1所述的方法，其中，所述识别图像中的文本，得到图像识别文本包括：

7....

【技术特征摘要】

1.一种图像处理方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述图像识别文本、所述视觉描述文本和所述提示文本，生成图像处理结果包括：

3.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

4.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

5.根据权利要求1所述的方法，其中，所述根据所述视觉对象，获取用于处理所述图像的提示文本包括：

6.根据权利要求1所述的方法，其中，所述识别图像中的文本，得到图像识别文本包括：

7.根据权利要求6所述的方法，其中，所述文本包括所述视觉对象中的子文本；所述识别所述图像中的视觉对象，得到所述图像的视觉描述文本包括：

8.根据权利要求1所述的方法，其中，所述视觉对象包括代码段、表格、图表、文本块以及界面元素中的至少之一。

9.一种图像处理装置，包括：

10.根据权利要求9所述的装置，其中，所述处理模块包括：

11.根据...

【专利技术属性】
技术研发人员：杨洋，王海威，包艳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人