抽取表单文档中信息的方法、电子设备和计算机可读介质技术

技术编号:27818277 阅读:23 留言:0更新日期:2021-03-30 10:24
本公开的实施例公开了抽取表单文档中信息的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取表单文档和预先确定的键值;基于预先确定的键值,生成键值语义序列;将表单文档和键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列;将目标信息序列和目标触发词序列推送至具有显示功能的目标设备,以及控制目标设备显示目标信息序列。这种方法将键值表示为键值语义序列,能够显式表示该键值的语义信息,从而可以直接根据键值语义序列得到表单文档中待抽取的目标信息序列的语义信息。引入目标触发词序列,能够解释键值语义序列,同时指示出目标信息序列在表单文档中的位置,提升了可抽取的目标信息序列的准确度,方便用户抽取表单文档中的关键信息。单文档中的关键信息。单文档中的关键信息。

【技术实现步骤摘要】
抽取表单文档中信息的方法、电子设备和计算机可读介质


[0001]本公开实施例涉及信息抽取领域,具体涉及表单文档信息抽取的方法、电子设备和计算机可读介质。

技术介绍

[0002]信息抽取通常可以指从源文档中抽取出特定的事件或事实信息。近年来,人们对从各种垂直领域的表单文档中提取结构化信息的兴趣越来越大,如发票、采购订单、税务表格等,表单文档作为一种数据展示、统计、核对、分析的工具,应用的场合越来越多。现有的方法大多将每个要提取的结构化信息预先定义为类标签,然后预测表单文档中每个词的类标签,以找到目标结构化信息。
[0003]然而,当采用上述方式抽取表单文档中的结构化信息时,经常会存在如下技术问题:第一,待处理的结构化信息是全新出现的,没有预先定义的类标签。此时应用传统的基于类标签进行预测查找的方法就不再适用,无法找到全新出现的结构化信息。
[0004]第二,现有的方法只能根据预先定义的类标签进行查找抽取,对于表达类似含义的结构化信息则无法判断。因此结构化信息抽取的准确度比较低。

技术实现思路

[0005]本公开实施例提出了一种抽取表单文档中信息的方法。
[0006]第一方面,本公开实施例提供了一种抽取表单文档中信息的方法,该方法包括:获取表单文档和预先确定的键值;基于预先确定的键值,生成键值语义序列;将表单文档和键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列;将目标信息序列推送至具有显示功能的目标设备,以及控制目标设备显示目标信息序列。
[0007]第二方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0008]第三方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
[0009]本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的抽取表单文档中信息的方法能够将键值表示为键值语义序列,能够显式表示该键值的语义信息,从而可以直接根据键值语义序列得到表单文档中待抽取的目标信息序列的语义信息。引入目标触发词序列,能够解释键值语义序列,同时指示出目标信息序列在表单文档中的位置。提升了可抽取的目标信息序列的准确度,方便用户抽取表单文档中的关键信息。具体来说,专利技术人发现,造成抽取表单文档中信息的准确度较低的主要原因在于:将键值语义序列视为不同的类别标签,忽视了键值语义序列本身的语义信息,导致无法抽取未预先定义的信息,只能抽取预先定义类别标签的信息。此外,对于表单文档中表达类似含义的信息也
无法进行准确判断和抽取,影响了信息抽取的准确度。基于此,首先,本公开的一些实施例获取用户输入的表单文档和预先确定的键值。其中,根据预先确定的键值来判断和抽取结构化信息。然后,根据用户输入的预先确定的键值,生成键值语义序列。键值语义序列显式表示语义信息,从而可以直接根据键值语义序列得到表单文档中待抽取的结构化信息的语义信息。其次,利用键值语义序列、表单文档和预先确定的训练库来生成目标信息序列和目标触发词序列。其中,目标信息序列表征待抽取的结构化信息。目标触发词序列可以纳入到样本库中辅助后续的结构化信息抽取工作。再次,预先确定训练库,其中包括样本库、样本键值、样本信息和样本触发词。利用训练库训练得到预先确定的信息生成模型。预先确定的信息生成模型能够学习两个映射关系:从键值语义序列到触发词序列的映射、从触发词序列的映射到目标信息序列的映射。当预先确定的模型接收一个没有预先定义的键值语义序列后,能够通过预先训练后确定的从键值语义序列到触发词序列的映射,来找到表单文档中对应的触发词序列。基于找到的触发词序列,能够通过预先训练后确定的从触发词序列到目标信息序列的映射,来找到表单文档中对应的目标信息序列。最后,将目标信息序列推送至具有显示功能的目标设备,以及控制目标设备显示目标信息序列。这种处理方式能够扩大信息抽取的范围,提高信息抽取的准确度,方便用户抽取表单文档中的关键信息。
附图说明
[0010]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一些实施例可以应用于其中的示例性系统的架构图;图2是根据本公开的抽取表单文档中信息的方法的一些实施例的流程图;图3是根据本公开的用于训练预先确定的信息生成模型的训练步骤的一个实施例的流程图;图4

图5是示例性的预先确定的样本库中的表单文档;图6是示例性的标记处理后的表单文档;图7是适于用来实现本公开的一些实施例的终端设备的结构示意图。
具体实施方式
[0011]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0012]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0013]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0014]下面将参考附图并结合实施例来详细说明本公开。
[0015]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这
里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0016]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0017]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0018]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0019]下面将参考附图并结合实施例来详细说明本公开。
[0020]图1示出了可以应用本公开的抽取表单文档中信息的方法的实施例的示例性系统架构100。
[0021]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抽取表单文档中信息的方法,包括:获取表单文档和预先确定的键值,其中,所述表单文档中包括第一数目个表单文档分词;基于所述预先确定的键值,生成键值语义序列;将所述表单文档和所述键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列;将所述目标信息序列和所述目标触发词序列推送至具有显示功能的目标设备,以及控制所述目标设备显示所述目标信息序列和所述目标触发词序列。2.根据权利要求1所述的方法,其中,所述获取表单文档和预先确定的键值之前,还包括:获取预先确定的样本库;对所述预先确定的样本库进行标记处理,以得到样本键值集合、样本信息集合和样本触发词集合;将所述样本库、所述样本键值集合、所述样本信息集合和所述样本触发词集合的集合确定为预先确定的训练库。3.根据权利要求2所述的方法,其中,所述键值语义序列包括第二数目个键值语义,所述键值语义为分词,所述预先确定的键值包括第二数目个分词;以及所述基于所述预先确定的键值,生成键值语义序列,包括:生成初始键值语义序列,其中,所述初始键值语义序列中的初始键值语义为空值,所述初始键值语义序列包括第二数目个初始键值语义;将所述预先确定的键值中的分词按照从前到后的顺序放入所述初始键值语义序列中,以得到所述键值语义序列。4.根据权利要求3所述的方法,其中,所述预先确定的信息生成模型包括第一提取网络、第二提取网络;以及将所述表单文档和所述键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列,包括:将所述表单文档和所述键值语义序列输入所述第一提取网络,生成触发词序列;将所述表单文档和所述触发词序列输入所述第二提取网络,生成所述目标信息序列和所述目标触发词序列。5.根据权利要求4所述的方法,其中,所述将所述表单文档和所述键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列之前,还包括:确定初始信息生成模型;利用所述预先确定的训练库训练所述初始信息生成模型,以得到过程信息生成模型;确定微调训练库,其中,所述微调训练库包括微调样本库、微调样本键值、微调样本信息和微调样本触发词;利用所述微调训练库训练所述过程信息生成模型,以得到所述预先确定的信息生成模型。6.根据权利要求5所述的方法,其中,所述将所述表单文档和所述键值语义序列输入所述第一提取网络...

【专利技术属性】
技术研发人员:吴勇民
申请(专利权)人:北京庖丁科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1