一种文本要素抽取方法及系统技术方案

技术编号:32929112 阅读:14 留言:0更新日期:2022-04-07 12:20
本发明专利技术提供一种文本要素抽取方法及系统,首先获取目标文本,按照预设业务规则对目标文本的文本内容进行段落分割,将目标文本拆分为多个段落文本;获取每个段落文本的文本内容;利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;通过卷积神经网络从编码结果中聚合每个句子的内部信息,获取每个句子的表征;通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到目标文本的要素信息。由此可知,本发明专利技术提出了基于长文本预训练模型段落级的要素抽取方案,不仅能够解决传统模型输入长度的限制和无法充分利用上下文信息,而且还能够以90%的准确率抽取出长文本要素信息。长文本要素信息。长文本要素信息。

【技术实现步骤摘要】
一种文本要素抽取方法及系统


[0001]本专利技术涉及深度学习
,特别是涉及一种文本要素抽取方法及系统。

技术介绍

[0002]随着深度学习的不断发展,当面对超过512个字的长文本,现有技术主要是将长文本进行截断然后输入到传统深度学习模型中,导致传统深度学习模型对长文本内容存在天然的语义不足性。而且,在面对要素抽取任务时,现在技术方案是把文本按照字符级进行标注,以句子级文本作为传统深度学习模型的输入,这使得传统深度学习模型无法充分利用句子的上下文信息,导致传统深度学习模型对要素抽取任务产生一定的偏置,从而存在抽取长文本内容不完整,抽取准确率低的问题。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种文本要素抽取方法,用于解决现有技术在进行文本要素抽取时抽取不完整和准确率低的问题。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种文本要素抽取方法,包括以下步骤:
[0005]获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值;
[0006]按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本;
[0007]获取每个段落文本的文本内容;其中,每个段落文本的文本内容包括句子和词;
[0008]利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;
[0009]通过卷积神经网络从所述编码结果中聚合每个句子的内部信息,获取每个句子的表征;
[0010]通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到所述目标文本的要素信息。
[0011]可选地,所述方法还包括:
[0012]获取符合业务规则的文本语料;
[0013]对所述文本语料按照句号进行句子划分,得到多个句子级文本;
[0014]将所述句子级文本的内容按照预先设定的要素标签进行标注,并将标准后的句子级文本转换为训练语料;
[0015]根据所述训练语料进行训练,生成所述预训练模型。
[0016]可选地,预先设定的要素标签包括:甲方名称和乙方名称,其中,所述甲方是指提出目标的一方,所述乙方是指实现所述甲方所提出的目标的另一方。
[0017]可选地,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:
[0018]按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多
个段落文本。
[0019]可选地,所述预设值为512。
[0020]本专利技术还提供一种文本要素抽取系统,包括有:
[0021]第一采集模块,用于获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值;
[0022]分割模块,用于按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本;
[0023]编码模块,用于获取每个段落文本的文本内容,并利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;其中,每个段落文本的文本内容包括句子和词;
[0024]聚合表征模块,用于通过卷积神经网络从所述编码结果中聚合每个句子的内部信息,获取每个句子的表征;
[0025]要素抽取模块,用于通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到所述目标文本的要素信息。
[0026]可选地,所述系统还包括:
[0027]获取符合业务规则的文本语料;
[0028]对所述文本语料按照句号进行句子划分,得到多个句子级文本;
[0029]将所述句子级文本的内容按照预先设定的要素标签进行标注,并将标准后的句子级文本转换为训练语料;
[0030]根据所述训练语料进行训练,生成所述预训练模型。
[0031]可选地,预先设定的要素标签包括:甲方名称和乙方名称,其中,所述甲方是指提出目标的一方,所述乙方是指实现所述甲方所提出的目标的另一方。
[0032]可选地,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:
[0033]按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。
[0034]可选地,所述预设值为512。
[0035]如上所述,本专利技术提供一种文本要素抽取方法及系统,具有以下有益效果:
[0036]本专利技术首先获取待进行文本要素抽取的目标文本,目标文本的字数超过预设值;按照预设业务规则对目标文本的文本内容进行段落分割,将目标文本拆分为多个段落文本;获取每个段落文本的文本内容;其中,每个段落文本的文本内容包括句子和词;利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;通过卷积神经网络从编码结果中聚合每个句子的内部信息,获取每个句子的表征;通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到目标文本的要素信息。由此可知,本专利技术提出了基于长文本预训练模型段落级的要素抽取方案,不仅能够解决传统模型输入长度的限制和无法充分利用上下文信息,而且还能够以90%的准确率抽取出长文本要素信息。本专利技术采用段落级文本内容作为模型输入,使得面对长文本内容能够以较高准确率抽出长文本要素信息。
附图说明
[0037]图1为一实施例提供的文本要素抽取方法的流程示意图;
[0038]图2为一实施例提供的文本要素抽取模型的结构示意图;
[0039]图3为一实施例提供的文本要素抽取系统的硬件结构示意图。
具体实施方式
[0040]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0041]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0042]请参阅图1,本专利技术提供一种文本要素抽取方法,包括以下步骤:
[0043]S100,获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值。作为示例,本实施例中的预设值为512。
[0044]S200,按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。作为示例,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。在本实施例中的业务规则可以预先根据业务需求进行设定。
[0045]S300,获取每个段落文本的文本内容;其中,每个段落文本的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本要素抽取方法,其特征在于,包括以下步骤:获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值;按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本;获取每个段落文本的文本内容;其中,每个段落文本的文本内容包括句子和词;利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;通过卷积神经网络从所述编码结果中聚合每个句子的内部信息,获取每个句子的表征;通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到所述目标文本的要素信息。2.根据权利要求1所述的文本要素抽取方法,其特征在于,所述方法还包括:获取符合业务规则的文本语料;对所述文本语料按照句号进行句子划分,得到多个句子级文本;将所述句子级文本的内容按照预先设定的要素标签进行标注,并将标准后的句子级文本转换为训练语料;根据所述训练语料进行训练,生成所述预训练模型。3.根据权利要求2所述的文本要素抽取方法,其特征在于,预先设定的要素标签包括:甲方名称和乙方名称,其中,所述甲方是指提出目标的一方,所述乙方是指实现所述甲方所提出的目标的另一方。4.根据权利要求1或2所述的文本要素抽取方法,其特征在于,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。5.根据权利要求1所述的文本要素抽取方法,其特征在于,所述预设值为512。6.一种文本要素抽取系统,其特征在于,包括有:第一采集...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1