文档信息提取方法、装置、设备及介质制造方法及图纸

技术编号:34325532 阅读:80 留言:0更新日期:2022-07-31 01:03
本申请涉及信息处理技术领域,提供了一种文档信息提取方法、装置、设备及介质,方法包括:对文档进行识别处理,得到多个文本块,将多个文本块输入到预训练的命名实体识别模型,以通过命名实体识别模型得到各个文本块对应的语义段落标签,根据各个文本块对应的语义段落标签,确定文档的语义段落,基于文本阅读顺序,确定文档中每个语义段落对应的布局类型,其中,文本阅读顺序包括左右阅读顺序和上下阅读顺序,布局类型包括段落布局和表格布局,根据语义段落对应的布局类型,提取每个语义段落的结构化数据。本申请实施例的文档信息提取方法能够简化文档信息的提取流程,并便于应用领域的迁移,提高对不同文档类型的适应性。提高对不同文档类型的适应性。提高对不同文档类型的适应性。

【技术实现步骤摘要】
文档信息提取方法、装置、设备及介质


[0001]本申请涉及信息处理
,尤其涉及一种文档信息提取方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用,如:信息挖掘、智能决策等。
[0003]相关文档提取的应用中,文档智能技术一般通过光学字符识别(Optical Character Recognition,OCR)等技术将文档图片转换为文本及符号,再应用自然语言处理(Natural Language Processing,NLP)技术将文档图片的文本及符号转化为结构化信息。
[0004]目前,在业务需求场景、模板多样化的情况下,文档智能任务涉及多个场景,如:病例、发票、清单、体检报告、保单、银行票据等,针对不同的场景需要针对性开发不同的提取方案,显然将极大增加工作成本同时难以维护优化。而对于通用的文档智能解决方案,则在应用领域迁移过程中需要大量的人工标注,每次切换应用领域带来的成本较高,因此,如何提供一种提取流程简单,便于应用领域迁移的文档信息提取方法成为亟待解决的技术问题。

技术实现思路

[0005]本申请实施例的主要目的在于提出一种文档信息提取方法、装置、电子设备及计算机可读存储介质,能够简化文档信息的提取流程,提高文档信息提取对不同应用领域的适应性。
[0006]为实现上述目的,本申请实施例的第一方面提出了一种文档信息提取方法,所述方法包括:
[0007]对文档进行识别处理,得到多个文本块;
[0008]将所述多个文本块输入到预训练的命名实体识别模型,以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签;
[0009]根据各个所述文本块对应的语义段落标签,确定所述文档的语义段落;
[0010]基于文本阅读顺序,确定所述文档中每个语义段落对应的布局类型,其中,所述文本阅读顺序包括左右阅读顺序和上下阅读顺序,所述布局类型包括段落布局和表格布局;
[0011]根据所述语义段落对应的布局类型,提取每个所述语义段落的结构化数据。
[0012]根据本专利技术一些实施例提供的文档信息提取方法,所述基于文本阅读顺序,确定所述文档中每个语义段落对应的布局类型,包括:
[0013]获取所述语义段落对应的文本特征信息;
[0014]根据所述文本特征信息,确定所述语义段落的文本阅读顺序;
[0015]当所述语义段落的文本阅读顺序为左右阅读顺序,确定所述语义段落的布局类型
为段落布局;
[0016]当所述语义段落的文本阅读顺序为上下阅读顺序,确定所述语义段落的布局类型为表格布局。
[0017]根据本专利技术一些实施例提供的文档信息提取方法,所述根据所述文本特征信息,确定所述语义段落的文本阅读顺序,包括:
[0018]构造用于确定所述语义段落的文本阅读顺序的二分类任务;
[0019]将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序。
[0020]根据本专利技术一些实施例提供的文档信息提取方法,所述文本特征信息为所述语义段落的词向量矩阵,所述分类模型为TextCNN模型;
[0021]所述将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序,包括:
[0022]将所述词向量矩阵输入到TextCNN模型,以通过所述TextCNN模型进行所述二分类任务,得到所述语义段落的文本阅读顺序。
[0023]根据本专利技术一些实施例提供的文档信息提取方法,所述文本特征信息为所述语义段落的字符特征矩阵,所述分类模型为Xgboost模型;
[0024]所述将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序,包括:
[0025]将所述字符特征矩阵中的每行字符向量进行最大池化,得到所述语义段落的行特征向量;
[0026]拼接所述语义段落的行特征向量,并将拼接后的行特征向量输入到Xgboost模型,以通过所述Xgboost模型进行所述二分类任务,得到所述语义段落的文本阅读顺序。
[0027]根据本专利技术一些实施例提供的文档信息提取方法,所述根据所述布局类型,提取每个所述语义段落的结构化数据,包括:
[0028]当所述语义段落的布局类型为段落布局,执行以下处理:
[0029]获取所述语义段落中的字段属性和字段值;
[0030]通过正则匹配方式标准化所述语义段落中的字段属性;
[0031]将所述字段值映射到标准化后的字段属性中,得到所述语义段落的结构化数据。
[0032]根据本专利技术一些实施例提供的文档信息提取方法,所述命名实体识别模型为基于LayoutLM模型的二维命名实体识别模型;
[0033]在所述将所述多个文本块输入到预训练的命名实体识别模型,以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签之前,所述方法还包括:
[0034]获取预设的文档训练数据集;
[0035]利用所述文档训练数据集对所述二维命名实体识别模型进行增广预训练,其中,所述增广预训练采用基于掩码视觉语言模型的自监督预训练方式。
[0036]为实现上述目的,本申请实施例的第二方面提出了一种文档信息提取装置,所述装置包括:
[0037]文本块获取模块,用于对文档进行识别处理,得到多个文本块;
[0038]标签分类模块,用于将所述多个文本块输入到预训练的命名实体识别模型,以通
过所述命名实体识别模型得到各个所述文本块对应的语义段落标签;
[0039]语义段落提取模块,用于根据各个所述文本块对应的语义段落标签,确定所述文档的语义段落;
[0040]布局类型分类模块,用于基于文本阅读顺序,确定所述文档中每个语义段落对应的布局类型,其中,所述文本阅读顺序包括左右阅读顺序和上下阅读顺序,所述布局类型包括段落布局和表格布局;
[0041]文档信息提取模块,用于根据所述语义段落对应的布局类型,提取每个所述语义段落的结构化数据。
[0042]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。
[0043]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
[0044]本申请提出一种文档信息提取方法、装置、电子设备以及计算机可读本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档信息提取方法,其特征在于,包括:对文档进行识别处理,得到多个文本块;将所述多个文本块输入到预训练的命名实体识别模型,以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签;根据各个所述文本块对应的语义段落标签,确定所述文档的语义段落;基于文本阅读顺序,确定所述文档中每个语义段落对应的布局类型,其中,所述文本阅读顺序包括左右阅读顺序和上下阅读顺序,所述布局类型包括段落布局和表格布局;根据所述语义段落对应的布局类型,提取每个所述语义段落的结构化数据。2.根据权利要求1所述的文档信息提取方法,其特征在于,所述基于文本阅读顺序,确定所述文档中每个语义段落对应的布局类型,包括:获取所述语义段落对应的文本特征信息;根据所述文本特征信息,确定所述语义段落的文本阅读顺序;当所述语义段落的文本阅读顺序为左右阅读顺序,确定所述语义段落的布局类型为段落布局;当所述语义段落的文本阅读顺序为上下阅读顺序,确定所述语义段落的布局类型为表格布局。3.根据权利要求2所述的文档信息提取方法,其特征在于,所述根据所述文本特征信息,确定所述语义段落的文本阅读顺序,包括:构造用于确定所述语义段落的文本阅读顺序的二分类任务;将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序。4.根据权利要求3所述的文档信息提取方法,其特征在于,所述文本特征信息为所述语义段落的词向量矩阵,所述分类模型为TextCNN模型;所述将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序,包括:将所述词向量矩阵输入到TextCNN模型,以通过所述TextCNN模型进行所述二分类任务,得到所述语义段落的文本阅读顺序。5.根据权利要求3所述的文档信息提取方法,其特征在于,所述文本特征信息为所述语义段落的字符特征矩阵,所述分类模型为Xgboost模型;所述将所述文本特征信息输入到分类模型,以通过所述分类模型进行所述二分类任务,得到所述语义段落的文本阅读顺序,包括:将所述字符特征矩阵中的每行字符向量进行最大池化,得到所述语义段落的行特征向量;拼接所述语义段落的...

【专利技术属性】
技术研发人员:刘东煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1