文档结构化信息的提取方法及装置、电子设备、存储介质制造方法及图纸

技术编号:37172977 阅读:12 留言:0更新日期:2023-04-20 22:43
本申请提供一种文档结构化信息的提取方法及装置、电子设备、存储介质,该方法包括:获取待处理的文档图片;通过已训练的结构化模型,提取文档图片中每个文本区域的位置信息和属性信息;通过OCR引擎提取文档图片中每个文本行的位置信息和文本内容;针对每个文本行,根据文本行的位置信息以及每个文本区域的位置信息和属性信息,确定文本行的属性信息;根据每个文本行的属性信息和文本内容,得到文档图片的结构化信息。该方案无需对每一种文档单独定制一种模板,可以适配任何一个OCR引擎,提升了文档结构化信息提取的自动化程度,提高了泛化性和鲁棒性。泛化性和鲁棒性。泛化性和鲁棒性。

【技术实现步骤摘要】
文档结构化信息的提取方法及装置、电子设备、存储介质


[0001]本申请涉及计算机视觉
,特别涉及一种文档结构化信息的提取方法及装置、电子设备、存储介质。

技术介绍

[0002]近年来,随着我国数字化的不断深入发展,纸质文档电子化已然成为一种趋势。但由于纸质文档的版式复杂多样,需要人工提取文档内容,并结构化的录入电子系统中。在手工录入过程中存在很多的弊端,一方面是人工录入会不可避免的出现漏项错项问题,另一方面需配置大量人力资源进行高度重复性工作,这不仅会给录入人员带来很大的压力,而且效率低下。
[0003]对于纸质文档的电子化,一般需要在OCR(Optical Character Recognition,光学字符识别)技术把图像中的文字信息识别出来以后,对文字识别结果进行结构化处理。现有结构化处理的方式一般采用基于规则的方式或基于学习的方式,但是这两种方式的鲁棒性和泛化性很低。

技术实现思路

[0004]本申请实施例提供了文档结构化信息的提取方法,用以提高泛化性和鲁棒性。
[0005]本申请实施例提供了一种文档结构化信息的提取方法,包括:
[0006]获取待处理的文档图片;
[0007]通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息;
[0008]通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容;
[0009]针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息,确定所述文本行的属性信息;
[0010]根据每个文本行的属性信息和文本内容,得到所述文档图片的结构化信息。
[0011]在一实施例中,所述结构化模型包括采用Swin

Transformer架构的特征提取模块、第一解码模块、第二解码模块和第三解码模块;所述第一解码模块、第二解码模块和第三解码模块均采用了transformer架构;
[0012]所述特征提取模块的输出作为所述第一解码模块的输入,所述第一解码模块的输出分别作为所述第二解码模块的输入和第三解码模块的输入。
[0013]在一实施例中,所述通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息,包括:
[0014]通过所述特征提取模块提取所述文档图片的图像特征;
[0015]通过所述第一解码模块对所述图像特征进行解码操作,得到初始解码特征;
[0016]将所述初始解码特征分别输入所述第二解码模块和第三解码模块,得到所述第二解码模块输出的每个文本区域的属性信息,以及所述第三解码模块输出的每个文本区域的
位置信息。
[0017]在一实施例中,所述针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息,确定所述文本行的属性信息,包括:
[0018]针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息,确定所述文本行对应的目标文本区域;
[0019]根据所述目标文本区域的属性信息,得到所述文本行的属性信息。
[0020]在一实施例中,所述针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息,确定所述文本行对应的目标文本区域,包括:
[0021]针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息,确定所述文本行与每个文本区域之间的重叠度;
[0022]根据所述文本行与每个文本区域之间的重叠度,确定所述文本行对应的目标文本区域。
[0023]在一实施例中,所述根据所述文本行与每个文本区域之间的重叠度,确定所述文本行对应的目标文本区域,包括:
[0024]根据所述文本行与每个文本区域之间的重叠度,将重叠度最大的文本区域作为所述文本行对应的目标文本区域。
[0025]在一实施例中,在所述通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息之前,所述方法还包括:
[0026]根据已标注每个文本框的位置信息和属性信息的样本文档图片,进行深度学习,训练得到所述结构化模型。
[0027]本申请实施例还提供了一种文档结构化信息的提取装置,包括:
[0028]图片获取模块,用于获取待处理的文档图片;
[0029]信息提取模块,用于通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息;
[0030]字符识别模块,用于通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容;
[0031]属性确定模块,用于针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息,确定所述文本行的属性信息;
[0032]结果输出模块,用于根据每个文本行的属性信息和文本内容,得到所述文档图片的结构化信息。
[0033]本申请实施例还提供了一种电子设备,所述电子设备包括:
[0034]处理器;
[0035]用于存储处理器可执行指令的存储器;
[0036]其中,所述处理器被配置为执行上述文档结构化信息的提取方法。
[0037]本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述文档结构化信息的提取方法。
[0038]本申请上述实施例提供的技术方案,通过已训练的结构化模型,提取文档图片中每个文本区域的位置信息和属性信息;通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容;进而根据文本行的位置信息以及每个文本区域的位置信息和属性信
息,确定文本行的属性信息;根据每个文本行的属性信息和文本内容,得到文档图片的结构化信息,该方案无需对每一种文档单独定制一种模板,节省了资金、人力和时间。结构化模型和OCR引擎相互独立,结构化模型的输出结果不依赖OCR引擎的输出结果,故可以适配任何一个OCR引擎,相比现有技术,可以提升了文档结构化信息提取的自动化程度,提高了泛化性和鲁棒性。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
[0040]图1是
技术介绍
中两种OCR引擎的识别结果对比示意图;
[0041]图2是本申请实施例提供的电子设备的结构示意图;
[0042]图3是本申请实施例提供的一种文档结构化信息的提取方法的流程示意图;
[0043]图4是本申请实施例提供的结构化模型的架构示意图;
[0044]图5是本申请实施例提供的Swin

Transformer架构的原理示意图;
[0045]图6是本申请实施例提供的Swin

Transformer的架构示意图;
[0046]图7是本申请实施例提供的文档图片中提取的多个文本区域的示意图;
[0047]图8是本申请实施例提供的重叠度计算的原理示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档结构化信息的提取方法,其特征在于,包括:获取待处理的文档图片;通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息;通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容;针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息,确定所述文本行的属性信息;根据每个文本行的属性信息和文本内容,得到所述文档图片的结构化信息。2.根据权利要求1所述的方法,其特征在于,所述结构化模型包括采用Swin

Transformer架构的特征提取模块、第一解码模块、第二解码模块和第三解码模块;所述第一解码模块、第二解码模块和第三解码模块均采用了transformer架构;所述特征提取模块的输出作为所述第一解码模块的输入,所述第一解码模块的输出分别作为所述第二解码模块的输入和第三解码模块的输入。3.根据权利要求2所述的方法,其特征在于,所述通过已训练的结构化模型,提取所述文档图片中每个文本区域的位置信息和属性信息,包括:通过所述特征提取模块提取所述文档图片的图像特征;通过所述第一解码模块对所述图像特征进行解码操作,得到初始解码特征;将所述初始解码特征分别输入所述第二解码模块和第三解码模块,得到所述第二解码模块输出的每个文本区域的属性信息,以及所述第三解码模块输出的每个文本区域的位置信息。4.根据权利要求1所述的方法,其特征在于,所述针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息,确定所述文本行的属性信息,包括:针对每个文本行,根据所述文本行的位置信息以及每个文本区域的位置信息,确定所述文本行对应的目标文本区域;根据所述目标文本区域的属性信息,得到所述文本行的属性信息。5.根据权利要求4所述的方法,其特征在于,所述针对每个文本行,根据所述文本行的位置信息以及每个文本区域...

【专利技术属性】
技术研发人员:王雷张睿周元剑
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1