一种信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35755351 阅读:9 留言:0更新日期:2022-11-26 19:02
本发明专利技术实施例公开了一种信息提取方法、装置、电子设备及存储介质。该方法可包括:获取待应用的目标字段以及从目标表格中提取出来的文本信息;从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;针对每个候选信息,将键信息与候选信息输入到已训练完成的目标分类模型中,并根据目标分类模型的输出结果得到分类概率;基于各候选信息分别对应的分类概率,对各候选信息进行排序;基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从目标表格中提取出来的目标字段的字段值。本发明专利技术实施例的技术方案,可从任意表格样式下的目标表格中自动提取出目标字段的字段值。标表格中自动提取出目标字段的字段值。标表格中自动提取出目标字段的字段值。

【技术实现步骤摘要】
一种信息提取方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]表格是人们日常工作生活中十分常用的文件形式。为了更好地利用表格,针对待被人们应用的目标字段,需要从表格中自动提取出目标字段的字段值。
[0003]在以表格样式为基准进行表格划分的情况下,可以将表格划分为制式表格以及非制式表格。目前常用的信息提取方案,只能从制式表格中提取出字段值,而无法从非制式表格中提取出字段值,通用性较差。

技术实现思路

[0004]本专利技术实施例提供了一种信息提取方法、装置、电子设备及存储介质,以实现从任意表格样式下的目标表格中自动提取出目标字段的字段值的效果。
[0005]根据本专利技术的一方面,提供了一种信息提取方法,可以包括:
[0006]获取待应用的目标字段以及从目标表格中提取出来的文本信息;
[0007]从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;
[0008]针对每个候选信息,将键信息与候选信息输入到已训练完成的目标分类模型中,并根据目标分类模型的输出结果得到分类概率,其中,分类概率表示将键信息与候选信息匹配为键值对的概率;
[0009]基于各候选信息分别对应的分类概率,对各候选信息进行排序;
[0010]基于各候选信息的排序结果,从各候选信息中确定目标信息,将目标信息作为从目标表格中提取出来的目标字段的字段值。
[0011]根据本专利技术的另一方面,提供了一种信息提取装置,可以包括:
[0012]文本信息获取模块,用于获取待应用的目标字段以及从目标表格中提取出来的文本信息;
[0013]候选信息召回模块,用于从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;
[0014]分类概率得到模块,用于针对每个候选信息,将键信息与候选信息输入到已训练完成的目标分类模型中,并根据目标分类模型的输出结果得到分类概率,其中,分类概率表示将键信息与候选信息匹配为键值对的概率;
[0015]候选信息排序模块,用于基于各候选信息分别对应的分类概率,对各候选信息进行排序;
[0016]字段值提取模块,用于基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从目标表格中提取出来的目标字段的字段值。
[0017]根据本专利技术的另一方面,提供了一种电子设备,可以包括:
[0018]至少一个处理器;以及
[0019]与至少一个处理器通信连接的存储器;其中,
[0020]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本专利技术任意实施例所提供的信息提取方法。
[0021]根据本专利技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本专利技术任意实施例所提供的信息提取方法。
[0022]本专利技术实施例的技术方案,通过获取待应用的目标字段以及从目标表格中提取出来的文本信息;针对每个目标字段,从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;进一步,针对每个候选信息,将键信息与候选信息输入到已训练完成的目标分类模型中,并根据目标分类模型的输出结果得到分类概率,该分类概率表示将键信息与候选信息匹配为键值对的概率;再进一步,基于各候选信息分别对应的分类概率,对这些候选信息进行排序;这样一来,可以基于各候选信息的排序结果,从各候选信息中确定目标信息,即最有可能与键信息组合为键值对的候选信息,从而将目标信息作为从目标表格中提取出来的目标字段的字段值。上述技术方案,实现了从任意表格样式下的目标表格(例如制式表格或是非制式表格)中自动提取出目标字段的字段值的效果,具有较大的应用空间。
[0023]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或是重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1a是本专利技术任意实施例中提及的非制式表格的第一示意图;
[0026]图1b是本专利技术任意实施例中提及的非制式表格的第二示意图;
[0027]图2是根据本专利技术实施例提供的一种信息提取方法的流程图;
[0028]图3是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0029]图4是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0030]图5是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0031]图6a是根据本专利技术实施例提供的另一种信息提取方法中可选示例的架构图;
[0032]图6b是根据本专利技术实施例提供的另一种信息提取方法中可选示例的流程图;
[0033]图7是根据本专利技术实施例提供的一种信息提取装置的结构框图;
[0034]图8是实现本专利技术实施例的信息提取方法的电子设备的结构示意图。
具体实施方式
[0035]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0036]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0037]在介绍本专利技术实施例之前,先对本专利技术实施例的应用场景进行示例性说明:以通过表格形式呈现的食品生产单为例,针对食品生产场景中涉及的一些常规字段,例如保质期、规格和净重等,如果这些常规字段在不同的食品生产公司提供的食品生产单上的位置相同,那么这样的食品生产单即为制式表格;否则,这样的食品生产单即为非制式表格,示例性的,如图1a和图1b所示,这二者是由两个食品生产公司分别提供的食本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取待应用的目标字段以及从目标表格中提取出来的文本信息;从所述文本信息中召回与所述目标字段匹配的键信息,并基于所述键信息从所述文本信息中召回至少一个候选信息;针对每个所述候选信息,将所述键信息与所述候选信息输入到已训练完成的目标分类模型中,并根据所述目标分类模型的输出结果得到分类概率,其中,所述分类概率表示将所述键信息与所述候选信息匹配为键值对的概率;基于各所述候选信息分别对应的分类概率,对各所述候选信息进行排序;基于各所述候选信息的排序结果,从各所述候选信息中确定目标信息,并将所述目标信息作为从所述目标表格中提取出来的所述目标字段的字段值。2.根据权利要求1所述的方法,其特征在于,在所述将所述键信息与所述候选信息输入到已训练完成的目标分类模型中之前,还包括:对所述键信息和所述候选信息进行特征提取,得到特征信息;所述将所述键信息与所述候选信息输入到已训练完成的目标分类模型中,包括:将所述特征信息输入到已训练完成的目标分类模型中。3.根据权利要求2所述的方法,其特征在于,所述对所述键信息和所述候选信息进行特征提取,得到特征信息,包括:分别获取包围住所述候选信息的候选框以及包围住所述键信息的键框;针对所述候选框的左框线上的第一点以及所述键框的右框线上的第二点,确定所述第一点与所述第二点间的左右相距距离;针对所述候选框的上框线上的第三点以及所述键框的下框线上的第四点,确定所述第三点与所述第四点间的上下相距距离;根据所述左右相距距离和所述上下相距距离,确定特征信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述左右相距距离和所述上下相距距离,确定特征信息,包括:确定所述左右相距距离以及所述上下相距距离中的较小相距距离;根据所述左右相距距离、所述上下相距距离及所述较小相距距离中的至少一个,确定特征信息。5.根据权利要求2所述的方法,其特征在于,所述对所述键信息和所述候选信息进行特征提取,得到特征信息,包括:将所述键信息输入到语言表示模型中,得到第一词向量,以及将所述候选信息输入到所述语言表示模型中,得到第二词向量,其中,所述语言表示模型包括来自Transformer的双向编码器表示模型;基于所述第一词向量和所述第二词向量,确定所述键信息与所述候选信息之间的相关度,并将所述相关度作为特征信息。6.根据权利要求1所述的方法,其特征在于,所述目标分类模型通过如下步骤预选训练得到:获取从样本表格中提取出来的样本信息;从所述样本信息中召回与所述目标字段匹配的第一信息,并基于所述第一信息从所述
样本信息中召回至少一个第二信息;针对每个所述第二...

【专利技术属性】
技术研发人员:张九龙
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1