【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型、生成模型。更具体地,本公开提供了一种图像处理方法、装置、电子设备、存储介质以及计算机程序产品。
技术介绍
1、目前图像分析技术通常限于简单的对象识别和基本文本提取,缺乏对图像中复杂元素的深度理解和全面处理。尤其在处理含有混合内容(如文本、图表、代码等)的图像时,目前图像分析技术往往无法准确识别和有效分析图像内容。
技术实现思路
1、本公开提供了一种图像处理方法、装置、电子设备、存储介质以及计算机程序产品。
2、根据第一方面,提供了一种图像处理方法,该方法包括:识别图像中的文本,得到图像识别文本;识别图像中的视觉对象,得到图像的视觉描述文本;根据视觉对象,获取用于处理图像的提示文本;根据图像识别文本、视觉描述文本和提示文本,生成图像处理结果。
3、根据第二方面,提供了一种图像处理装置,该装置包括:第一识别模块,用于识别图像中的文本,得到图像识别文本;第二识别模块,用于识别图像中的视觉对象,得到图像的视觉描述文本
...【技术保护点】
1.一种图像处理方法,包括:
2.根据权利要求1所述的方法,其中,所述根据所述图像识别文本、所述视觉描述文本和所述提示文本,生成图像处理结果包括:
3.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
4.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
5.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
6.根据权利要求1所述的方法,其中,所述识别图像中的文本,得到图像识别文本包括
7....
【技术特征摘要】
1.一种图像处理方法,包括:
2.根据权利要求1所述的方法,其中,所述根据所述图像识别文本、所述视觉描述文本和所述提示文本,生成图像处理结果包括:
3.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
4.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
5.根据权利要求1所述的方法,其中,所述根据所述视觉对象,获取用于处理所述图像的提示文本包括:
6.根据权利要求1所述的方法,其中,所述识别图像中的文本,得到图像识别文本包括:
7.根据权利要求6所述的方法,其中,所述文本包括所述视觉对象中的子文本;所述识别所述图像中的视觉对象,得到所述图像的视觉描述文本包括:
8.根据权利要求1所述的方法,其中,所述视觉对象包括代码段、表格、图表、文本块以及界面元素中的至少之一。
9.一种图像处理装置,包括:
10.根据权利要求9所述的装置,其中,所述处理模块包括:
11.根据...
【专利技术属性】
技术研发人员:杨洋,王海威,包艳,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。