文档结构化信息的提取方法及装置、电子设备、存储介质制造方法及图纸

技术编号：37172977 阅读：12 留言：0更新日期：2023-04-20 22:43

本申请提供一种文档结构化信息的提取方法及装置、电子设备、存储介质，该方法包括：获取待处理的文档图片；通过已训练的结构化模型，提取文档图片中每个文本区域的位置信息和属性信息；通过OCR引擎提取文档图片中每个文本行的位置信息和文本内容；针对每个文本行，根据文本行的位置信息以及每个文本区域的位置信息和属性信息，确定文本行的属性信息；根据每个文本行的属性信息和文本内容，得到文档图片的结构化信息。该方案无需对每一种文档单独定制一种模板，可以适配任何一个OCR引擎，提升了文档结构化信息提取的自动化程度，提高了泛化性和鲁棒性。泛化性和鲁棒性。泛化性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
文档结构化信息的提取方法及装置、电子设备、存储介质

[0001]本申请涉及计算机视觉
，特别涉及一种文档结构化信息的提取方法及装置、电子设备、存储介质。

技术介绍

[0002]近年来，随着我国数字化的不断深入发展，纸质文档电子化已然成为一种趋势。但由于纸质文档的版式复杂多样，需要人工提取文档内容，并结构化的录入电子系统中。在手工录入过程中存在很多的弊端，一方面是人工录入会不可避免的出现漏项错项问题，另一方面需配置大量人力资源进行高度重复性工作，这不仅会给录入人员带来很大的压力，而且效率低下。
[0003]对于纸质文档的电子化，一般需要在OCR(Optical Character Recognition，光学字符识别)技术把图像中的文字信息识别出来以后，对文字识别结果进行结构化处理。现有结构化处理的方式一般采用基于规则的方式或基于学习的方式，但是这两种方式的鲁棒性和泛化性很低。

技术实现思路

[0004]本申请实施例提供了文档结构化信息的提取方法，用以提高泛化性和鲁棒性。
[0005]本申请实施例提供了一种文档结构化信息的提取方法，包括：
[0006]获取待处理的文档图片；
[0007]通过已训练的结构化模型，提取所述文档图片中每个文本区域的位置信息和属性信息；
[0008]通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容；
[0009]针对每个文本行，根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息，确定所述文本行的属性信...

【技术保护点】

【技术特征摘要】
1.一种文档结构化信息的提取方法，其特征在于，包括：获取待处理的文档图片；通过已训练的结构化模型，提取所述文档图片中每个文本区域的位置信息和属性信息；通过OCR引擎提取所述文档图片中每个文本行的位置信息和文本内容；针对每个文本行，根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息，确定所述文本行的属性信息；根据每个文本行的属性信息和文本内容，得到所述文档图片的结构化信息。2.根据权利要求1所述的方法，其特征在于，所述结构化模型包括采用Swin
‑
Transformer架构的特征提取模块、第一解码模块、第二解码模块和第三解码模块；所述第一解码模块、第二解码模块和第三解码模块均采用了transformer架构；所述特征提取模块的输出作为所述第一解码模块的输入，所述第一解码模块的输出分别作为所述第二解码模块的输入和第三解码模块的输入。3.根据权利要求2所述的方法，其特征在于，所述通过已训练的结构化模型，提取所述文档图片中每个文本区域的位置信息和属性信息，包括：通过所述特征提取模块提取所述文档图片的图像特征；通过所述第一解码模块对所述图像特征进行解码操作，得到初始解码特征；将所述初始解码特征分别输入所述第二解码模块和第三解码模块，得到所述第二解码模块输出的每个文本区域的属性信息，以及所述第三解码模块输出的每个文本区域的位置信息。4.根据权利要求1所述的方法，其特征在于，所述针对每个文本行，根据所述文本行的位置信息以及每个文本区域的位置信息和属性信息，确定所述文本行的属性信息，包括：针对每个文本行，根据所述文本行的位置信息以及每个文本区域的位置信息，确定所述文本行对应的目标文本区域；根据所述目标文本区域的属性信息，得到所述文本行的属性信息。5.根据权利要求4所述的方法，其特征在于，所述针对每个文本行，根据所述文本行的位置信息以及每个文本区域...

【专利技术属性】
技术研发人员：王雷，张睿，周元剑，
申请(专利权)人：上海弘玑信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人