信息抽取方法及装置制造方法及图纸

技术编号:32013378 阅读:13 留言:0更新日期:2022-01-22 18:30
本申请提供信息抽取方法及装置,其中信息抽取方法包括:获取待处理文档;识别待处理文档中的文本和表格;基于关键词识别算法对文本进行关键信息识别,确定文档文本关键信息;对表格中单元格的字符进行解析,得到文档表格关键信息;将文档文本关键信息和文档表格关键信息进行融合,确定待处理文档的信息抽取结果。即该方案不仅可以抽取文档文本关键信息,也可以抽取文档表格关键信息。由于同一个待处理文档中,文档文本关键信息和文档表格关键信息可能存在关联,且单独的文档文本关键信息或文档表格关键信息可能不完整,因此,可以融合文档文本关键信息和文档表格关键信息,得到待处理文档的信息抽取结果,能够提高信息抽取的完整性和准确性。性和准确性。性和准确性。

【技术实现步骤摘要】
信息抽取方法及装置


[0001]本申请涉及人工智能
的数据处理技术,特别涉及一种信息抽取方法。本申请同时涉及一种信息抽取装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能、计算机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解(natural

language understanding)是指通过对功能单元从已传入的功能单元中的自然语言形式的文本或语音中的提取信息,并产生对给定文本或语音及其表示的描述。信息抽取技术通过对结构化、半结构化或非结构化数据进行分析处理,提取结构化的关键信息,是自然语言处理领域中的一项基础且重要的任务环节。现有的信息抽取方法更多是基于纯文本的信息抽取,但对于pdf等文档而言,文档中往往存在分栏、分块、嵌套表格等复杂多样的格式,如果仅仅依赖基于纯文本的信息抽取,会导致抽取的关键信息结果不完整、不准确。因此,探索一种基于文档级别的信息抽取方法尤为关键。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种信息抽取方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种信息抽取装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种信息抽取方法,包括:
[0005]获取待处理文档;
[0006]识别所述待处理文档中的文本和表格;
[0007]基于关键词识别算法对所述文本进行关键信息识别,确定文档文本关键信息;
[0008]对所述表格中单元格的字符进行解析,得到文档表格关键信息;
[0009]将所述文档文本关键信息和所述文档表格关键信息进行融合,确定所述待处理文档的信息抽取结果。
[0010]根据本申请实施例的第二方面,提供了一种信息抽取装置,包括:
[0011]获取模块,被配置为获取待处理文档;
[0012]识别模块,被配置为识别所述待处理文档中的文本和表格;
[0013]第一确定模块,被配置为基于关键词识别算法对所述文本进行关键信息识别,确定文档文本关键信息;
[0014]解析模块,被配置为对所述表格中单元格的字符进行解析,得到文档表格关键信息;
[0015]第二确定模块,被配置为将所述文档文本关键信息和所述文档表格关键信息进行融合,确定所述待处理文档的信息抽取结果。
[0016]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0017]存储器和处理器;
[0018]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述信息抽取方法的步骤。
[0019]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述信息抽取方法的步骤。
[0020]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述信息抽取方法的步骤。
[0021]本申请提供的信息抽取方法,获取待处理文档;识别所述待处理文档中的文本和表格;基于关键词识别算法对所述文本进行关键信息识别,确定文档文本关键信息;对所述表格中单元格的字符进行解析,得到文档表格关键信息;将所述文档文本关键信息和所述文档表格关键信息进行融合,确定所述待处理文档的信息抽取结果。也即是,获取到既包括文本又包括表格的待处理文档后,由于从文本中获取关键信息和从表格中获取关键信息的方式是不同的,因此,可以先对待处理文档进行识别,区分文本和表格,然后采用关键词识别算法识别出文本的文档文本关键信息,再对表格中的字符进行解析,得到文档表格关键信息。即该方案不仅可以基于文本抽取文档文本关键信息,也可以基于表格抽取文档表格关键信息。由于同一个待处理文档中,文档文本关键信息和文档表格关键信息之间可能存在关联,且单独的文档文本关键信息或文档表格关键信息可能不完整,因此,可以对文档文本关键信息和文档表格关键信息进行融合,得到待处理文档的信息抽取结果,如此能够提高信息抽取的完整性和准确性,实现了文档级别的信息抽取。
附图说明
[0022]图1是本申请一实施例提供的一种信息抽取方法的流程图;
[0023]图2是本申请一实施例提供的一种待处理文档的页面示意图;
[0024]图3是本申请一实施例提供的一种跨页表格的示意图;
[0025]图4是本申请一实施例提供的另一种跨页表格的示意图;
[0026]图5是本申请一实施例提供的一种信息抽取方法的示意图;
[0027]图6是本申请一实施例提供的一种应用于理财行为分析的信息抽取方法的处理流程图;
[0028]图7是本申请一实施例提供的一种信息抽取装置的结构示意图;
[0029]图8是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0030]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况
下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0031]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0032]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0033]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0034]信息抽取:是指从结构化、非结构化或半结构化文本中提取结构化信息的技术。
[0035]BERT:Bidirectional Encoder Representation from Transformers,一种开源的预训练语言模型。
[0036]NER:(Named Entity Rec本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:获取待处理文档;识别所述待处理文档中的文本和表格;基于关键词识别算法对所述文本进行关键信息识别,确定文档文本关键信息;对所述表格中单元格的字符进行解析,得到文档表格关键信息;将所述文档文本关键信息和所述文档表格关键信息进行融合,确定所述待处理文档的信息抽取结果。2.如权利要求1所述的信息抽取方法,其特征在于,识别所述待处理文档中的文本和表格,包括:对所述待处理文档进行表格识别,确定所述待处理文档中的表格,以及所述表格的位置信息和所述表格中每个单元格的位置信息;将所述待处理文档中除所述表格之外的部分确定为文本。3.如权利要求1所述的信息抽取方法,其特征在于,基于关键词识别算法对所述文本进行关键信息识别,确定文档文本关键信息,包括:对所述文本进行字符识别,确定所述文本的字符内容;将所述文本的字符内容输入预先训练的关键词识别模型,得到文档文本关键信息;和/或,按照预设规则模板对所述文本的字符内容进行关键信息识别,得到文档文本关键信息。4.如权利要求3所述的信息抽取方法,其特征在于,将所述文本的字符内容输入预先训练的关键词识别模型,得到文档文本关键信息之前,还包括:按照预设分块规则对所述文本的字符内容进行分块,得到多个文本块;相应地,将所述文本的字符内容输入预先训练的关键词识别模型,得到文档文本关键信息,包括:对所述多个文本块进行筛选,确定所述多个文本块中符合预设筛选条件的待处理文本块;将所述待处理文本块输入预先训练的关键词识别模型,得到所述待处理文本块对应的文档文本关键信息。5.如权利要求2所述的信息抽取方法,其特征在于,对所述表格中单元格的字符进行解析,得到文档表格关键信息,包括:对所述表格中的字符进行解析,确定每个字符的位置信息;基于每个字符的位置信息和所述表格中每个单元格的位置信息,确定每个字符所处的单元格;基于所述表格中每个单元格内的字符,确定文档表格关键信息。6.如权利要求5所述的信息抽取方法,其特征在于,基于所述表格中每个单元格内的字符,确定文档表格关键信息,包括:确定所述表格的版式信息,并基于所述版式信息提取所述表格的主题信息;将所述主题信息与预设的关键信息词表进行匹配;若匹配成功,则基于所述表格中每个单元格内的字符,确定文档表格关键信息。7.如权利要求6所述的信息抽取方法,其特征在于,基于所述表格中每个单元格内的字符,确定文档表格关键信息之前,还包括:
根据所述版式信息,确定各关键信息条目,所述关键信息条目为所述表格的一行或者一列;从所述表格中,删除各单元格内的字符符合预设过滤条件的关键信息条目;基于所述表格中每个单元格内的字符,确定文档表格关键信息,包括:将剩余的任一关键信息条目中每个单元格内的字符组成文档表格关键信息。8.如权利要求5

7任一项所述的信息抽取方法,其特征在于,基于所述表格中每个单元格内的字符,确定文档表格关键信息之前,还包括:若基于所述表格的位置信息确定所述表格是跨页表格,则将当前页中的第一表格与下一页中的第二表格进行合并,...

【专利技术属性】
技术研发人员:弓源李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1