信息提取方法及装置制造方法及图纸

技术编号:32550978 阅读:59 留言:0更新日期:2022-03-05 11:50
本申请提供一种信息提取方法及装置,其中所述信息提取方法包括:对接收到的待处理文本进行分句处理,获得初始句子集合;获取所述初始句子集合中每个句子对应的分类信息;根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合;将所述目标段落集合输入至命名实体识别模型进行处理,获得所述命名实体识别模型输出的目标实体集合;根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法,提升了信息提取效率以及信息提取的准确率。确率。确率。

【技术实现步骤摘要】
信息提取方法及装置


[0001]本申请涉及计算机
,特别涉及一种信息提取方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]在文本处理领域,通常会需要对文本进行信息提取,目前的处理方式是对整个文本进行识别和抽取,但对文本的信息提取属于篇章级的信息提取,当前的信息模型无法处理文本,或提取效果较差,有的文本中要提取的信息通常只出现在部分区域,不会在全文出现,例如在合同文件中,要提取的信息出现在特定区域,条款信息中通常不包含实体信息,对整个文本进行信息抽取时,抽取效率很低,目前对整个文本的信息提取方法是基于规则进行信息提取,即利用人工总结规律,构建一些规则,基于规则从文本中找出实体信息,但是由于文本的类型很多,基于规则的信息提取方法很难做到非常好的泛化性,对于不同类型的文本要配置不同的规则,工作量也十分巨大,耗费人力物力。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种信息提取方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本申请实施例的第一方面,提供了一种信息提取方法,包括:
[0005]对接收到的待处理文本进行分句处理,获得初始句子集合;
[0006]获取所述初始句子集合中每个句子对应的分类信息;
[0007]根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合;
[0008]将所述目标段落集合输入至命名实体识别模型进行处理,获得所述命名实体识别模型输出的目标实体集合;
[0009]根据所述目标实体集合确定所述待处理文本的信息提取结果。
[0010]根据本申请实施例的第二方面,提供了一种信息提取装置,包括:
[0011]分句模块,被配置为对接收到的待处理文本进行分句处理,获得初始句子集合;
[0012]句子分类模块,被配置为获取所述初始句子集合中每个句子对应的分类信息;
[0013]确定模块,被配置为根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合;
[0014]实体识别模块,被配置为将所述目标段落集合输入至命名实体识别模型进行处理,获得所述命名实体识别模型输出的目标实体集合;
[0015]信息提取模块,被配置为根据所述目标实体集合确定所述待处理文本的信息提取结果。
[0016]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所
述信息提取方法的步骤。
[0017]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述信息提取方法的步骤。
[0018]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述信息提取方法的步骤。
[0019]本申请实施例提供的信息提取方法,包括:对接收到的待处理文本进行分句处理,获得初始句子集合;获取所述初始句子集合中每个句子对应的分类信息;根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合;将所述目标段落集合输入至命名实体识别模型进行处理,获得所述命名实体识别模型输出的目标实体集合;根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法,先通过句子分类,将待处理文本中不包含实体信息的句子过滤,再对包含实体信息的句子进行实体识别,避免了整篇文档进行实体抽取导致的抽取效率低的问题,也避免了在不包含实体的段落中抽取错误实体导致的信息抽取准确率低的问题。提升了信息提取效率以及信息提取的准确率。
附图说明
[0020]图1是本申请实施例提供的计算设备的结构框图;
[0021]图2是本申请实施例提供的信息提取方法的流程图;
[0022]图3是本申请实施例提供的信息提取方法在合同文本进行信息提取的示意图;
[0023]图4是本申请实施例提供的信息提取装置的结构示意图。
具体实施方式
[0024]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0025]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0026]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
[0027]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0028]实体:指现实世界中客观存在的并可以互相区分的对象或事物,比如一个人名、一个地址名、一个合同名、一个日期等等。
[0029]Bert(Bidirectional Encoder Representations from Transformers):一种双
向注意力神经网络模型,是用于自然语言处理的预训练技术。
[0030]待处理文本:需要进行信息提取的载体,例如合同里的文本信息;法律文件中的文本信息等等。
[0031]待处理文件:待处理文本对应的文件,例如合同、法律文件等。
[0032]初始句子集合:待处理文本经过分句处理后,获得的初始句子的集合,在初始句子集合中不区分句子的分类。
[0033]目标句子集合:在初始句子集合中进行筛选后,确定句子的分类信息为包括实体信息的句子组成的集合,即目标句子集合中的目标句子均包括实体信息。
[0034]目标段落集合:由目标句子组成的段落为目标段落,多个目标段落组成目标段落集合。
[0035]目标实体集合:从目标段落中提取出的实体信息集合,包括目标实体、目标实体类型和目标实体对应的句子序号。
[0036]预设分句标识符:用于划分初始句子的标识,例如“。”、“?”、“!”等。
[0037]分类信息:用于表示句子分类的信息,分为第一类句子和第二类句子,其中,第一类句子代表句子中包括实体信息,第二类句子代表句子中不包括实体信息。
[0038]在文本处理领域,通常会需要对文本进行信息提取,目前的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:对接收到的待处理文本进行分句处理,获得初始句子集合;获取所述初始句子集合中每个句子对应的分类信息;根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合;将所述目标段落集合输入至命名实体识别模型进行处理,获得所述命名实体识别模型输出的目标实体集合;根据所述目标实体集合确定所述待处理文本的信息提取结果。2.如权利要求1所述的信息提取方法,其特征在于,对接收到的待处理文本进行分句处理,获得初始句子集合,包括:获取预设分句标识符;根据所述预设分句标识符对所述待处理文本进行分句处理,获得初始句子集合。3.如权利要求1所述的信息提取方法,其特征在于,获取所述初始句子集合中每个句子对应的分类信息,包括:将所述初始句子集合输入至句子分类模型中进行处理,获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息。4.如权利要求3所述的信息提取方法,其特征在于,将所述初始句子集合输入至句子分类模型中进行处理,获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息,包括:在所述初始句子集合中确定目标初始句子,并将所述目标初始句子输入至句子分类模型中进行句子分类,其中,所述句子分类模型被训练于判断句子中是否包含实体信息;在所述目标初始句子包含实体信息的情况下,获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第一类句子;在所述目标初始句子未包含实体信息的情况下,获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第二类句子。5.如权利要求4所述的信息提取方法,其特征在于,根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合,并根据所述目标句子集合确定目标段落集合,包括:确定分类信息为第一类句子的初始句子为目标句子,获得目标句子集合;根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接,生成目标段落集合。6.如权利要求5所述的信息提取方法,其特征在于,根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接,生成目标段落集合,包括:将连续相邻的位置信息对应的目标句子进行拼接,生成一个目标段落;根据每个目标段落生成目标段落集合。7.如权利要求1所述的信息提取方法,其特征在于,所述目标实体集合包括目标实体、实体类型和实体对应的句子序号;根据所述目标实体集合确定所述待处理文本的信息提取结果,包括:根据实体对应的句子序号、实体类型和预设规则对...

【专利技术属性】
技术研发人员:侯依宁李长亮毛璐
申请(专利权)人:成都金山互动娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1