图像信息提取方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：40170900 阅读：7 留言：0更新日期：2024-01-26 23:41

本申请公开一种图像信息提取方法、装置、电子设备及可读存储介质，属于计算机视觉技术领域。该方法包括：获取目标图像对应的文本特征和图像特征；对文本特征和图像特征进行合并处理，生成融合特征；根据融合特征确定目标图像所属的图像类型；基于图像类型，获取目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系；基于待提取的目标实体标签，提取多个文本框中目标文本框的内容信息。这样，可以针对多种不同类型的图像进行信息提取，并且在信息提取的过程中，根据待提取的目标实体标签和不同文本框之间的链接关系，能够准确地提取出与目标实体标签相对应的内容信息，从而提高信息提取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机视觉，尤其涉及一种图像信息提取方法、装置、电子设备及可读存储介质。

技术介绍

1、随着金融科技行业迅速发展，人工智能、大数据等技术不断应用到各种金融领域，推动金融业务向智能化、移动化发展，有效提升了工作效率，赋能业务创新。在一些特殊场景下，如保险领域，业务人员每天需要处理数亿张信息繁琐的保险单据，以及海量客户的理赔服务，因而需要耗费大量的人力进行票据、卡证、清单等信息的录入及审核。

2、目前，采用ocr(optical character recognition，光学字符识别)技术能够提取出图像中的内容信息，然而，由于待录入或审核图像的类型多样，如票据、卡证、清单等，不同类型图像的版式具有较大的差异，因此，对于多种类别的图像，其信息提取的准确率不高。

技术实现思路

1、本申请实施例提供了一种图像信息提取方法、装置、电子设备及可读存储介质，以至少解决现有技术中，对于多种类别的图像，其信息提取的准确率不高的问题。

2、为了解决上述技术问题，本申请是这样实现的：

3、第一方面，本申请实施例提供了一种图像信息提取方法，包括：

4、获取目标图像对应的文本特征和图像特征；

5、对所述文本特征和图像特征进行合并处理，根据合并处理后的特征确定所述目标图像所属的图像类型；所述合并处理为合并文本特征和图像特征中的至少一个；

6、基于所述图像类型，获取所述目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系；

7、基于待提取的目标实体标签，提取所述多个文本框中目标文本框的内容信息；所述目标文本框为与所述目标实体标签对应的第一文本框的链接关系满足预设条件的第二文本框。

8、在一种可能的实施方式中，所述获取目标图像对应的文本特征和图像特征，包括：

9、对原始采集图像进行图像预处理操作，得到所述目标图像；

10、提取所述目标图像的文本特征和图像特征；

11、其中，所述图像预处理操作至少包括以下之一：

12、滤除所述原始采集图像中的阴影区域；

13、对所述原始采集图像进行去噪处理；

14、采用颜色通道分离法去除所述原始采集图像中的印章。

15、其中，所述文本特征包括字符信息，所述图像特征包括版面信息和颜色信息。

16、在一种可能的实施方式中，所述基于所述图像类型，获取所述目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系，包括：

17、基于所述图像类型，提取所述目标图像中多个文本框对应的版面信息；

18、对所述版面信息的多个特征进行特征融合处理，得到所述多个文本框对应的文本行节点表示向量；

19、基于所述多个文本框中每个文本框对应的类别标识码和文本节点表示向量，预测每个文本框对应的实体标签；

20、基于每个文本框对应的实体标签，确定所述多个文本框中不同文本框之间的链接关系。

21、其中，所述版面信息包括文本框图片信息、文本框位置信息和文本框文字信息；所述对所述版面信息的多个特征进行特征融合处理，得到所述多个文本框对应的文本行节点表示向量，包括：

22、将所述文本框图片信息对应的第一特征、文本框位置信息对应的第二特征和文本框文字信息对应的第三特征进行特征融合处理，得到融合特征；

23、基于所述文本框图片信息和文本框位置信息，确定文本行的空间位置关系，根据所述文本行的空间位置关系构建相邻矩阵；

24、基于所述相邻矩阵和融合特征，确定所述多个文本框对应的文本行节点表示向量。

25、所述基于所述多个文本框中每个文本框对应的类别标识码和文本节点表示向量，预测每个文本框对应的实体标签，包括：

26、根据所述多个文本框中每个文本框的文本内容，确定每个文本框所属的实体类别；

27、根据每个文本框所属的实体类别，确定每个文本框对应的类别标识码；

28、对所述类别标识码和文本字节表示向量进行拼接处理，得到拼接向量；

29、基于所述拼接向量，预测每个文本框对应的实体标签。

30、第二方面，本申请实施例提供了一种图像信息提取装置，包括：

31、特征获取模块，用于获取目标图像对应的文本特征和图像特征；

32、类型确定模块，用于对所述文本特征和图像特征进行合并处理，根据合并处理后的特征确定所述目标图像所属的图像类型；所述合并处理为合并文本特征和图像特征中的至少一个；

33、关系获取模块，用于基于所述图像类型，获取所述目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系；

34、信息提取模块，用于基于待提取的目标实体标签，提取所述多个文本框中目标文本框的内容信息；所述目标文本框为与所述目标实体标签对应的第一文本框的链接关系满足预设条件的第二文本框。

35、在一种可能的实施方式中，所述特征获取模块，包括：

36、预处理单元，用于对原始采集图像进行图像预处理操作，得到所述目标图像；其中，所述图像预处理操作至少包括以下之一：

37、滤除所述原始采集图像中的阴影区域；

38、对所述原始采集图像进行去噪处理；

39、采用颜色通道分离法去除所述原始采集图像中的印章。

40、特征提取单元，用于提取所述目标图像的文本特征和图像特征。

41、第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述的图像信息提取方法的步骤。

42、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现上述的图像信息提取方法的步骤。

43、本申请实施例提供的图像信息提取方法，获取目标图像对应的文本特征和图像特征；对文本特征和图像特征进行合并处理，生成融合特征；根据融合特征确定目标图像所属的图像类型；基于图像类型，获取目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系；基于待提取的目标实体标签，提取多个文本框中目标文本框的内容信息。这样，可以针对多种不同类型的图像进行信息提取，并且在信息提取的过程中，根据待提取的目标实体标签和不同文本框之间的链接关系，能够准确地提取出与目标实体标签相对应的内容信息，从而提高信息提取的准确率。

44、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种图像信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标图像对应的文本特征和图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本特征包括字符信息，所述图像特征包括版面信息和颜色信息。

4.根据权利要求1所述的方法，其特征在于，所述基于所述图像类型，获取所述目标图像中的多个文本框，以及多个文本框中不同文本框之间的链接关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述版面信息包括文本框图片信息、文本框位置信息和文本框文字信息；所述对所述版面信息的多个特征进行特征融合处理，得到所述多个文本框对应的文本行节点表示向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述多个文本框中每个文本框对应的类别标识码和文本节点表示向量，预测每个文本框对应的实体标签，包括：

7.一种图像信息提取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述特征获取模块，包括：

9.一种电子设备，其特征在于，所述电子设

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种图像信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标图像对应的文本特征和图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本特征包括字符信息，所述图像特征包括版面信息和颜色信息。

...

【专利技术属性】
技术研发人员：曾婵，李昊，李赫，
申请(专利权)人：人保信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人