一种文本要素抽取方法及系统技术方案

技术编号：32929112 阅读：14 留言：0更新日期：2022-04-07 12:20

本发明专利技术提供一种文本要素抽取方法及系统，首先获取目标文本，按照预设业务规则对目标文本的文本内容进行段落分割，将目标文本拆分为多个段落文本；获取每个段落文本的文本内容；利用预训练模型对每个段落文本中的句子进行编码，得到对应的编码结果；通过卷积神经网络从编码结果中聚合每个句子的内部信息，获取每个句子的表征；通过条件随机场从每个句子的表征中获取对应句子的上下文信息，得到目标文本的要素信息。由此可知，本发明专利技术提出了基于长文本预训练模型段落级的要素抽取方案，不仅能够解决传统模型输入长度的限制和无法充分利用上下文信息，而且还能够以90％的准确率抽取出长文本要素信息。长文本要素信息。长文本要素信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本要素抽取方法及系统

[0001]本专利技术涉及深度学习
，特别是涉及一种文本要素抽取方法及系统。

技术介绍

[0002]随着深度学习的不断发展，当面对超过512个字的长文本，现有技术主要是将长文本进行截断然后输入到传统深度学习模型中，导致传统深度学习模型对长文本内容存在天然的语义不足性。而且，在面对要素抽取任务时，现在技术方案是把文本按照字符级进行标注，以句子级文本作为传统深度学习模型的输入，这使得传统深度学习模型无法充分利用句子的上下文信息，导致传统深度学习模型对要素抽取任务产生一定的偏置，从而存在抽取长文本内容不完整，抽取准确率低的问题。

技术实现思路

[0003]鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种文本要素抽取方法，用于解决现有技术在进行文本要素抽取时抽取不完整和准确率低的问题。
[0004]为实现上述目的及其他相关目的，本专利技术提供一种文本要素抽取方法，包括以下步骤：
[0005]获取待进行文本要素抽取的目标文本，所述目标文本的字数超过预设值；
[0006]按照预设业务规则对所述目标文本的文本内容进行段落分割，将所述目标文本拆分为多个段落文本；
[0007]获取每个段落文本的文本内容；其中，每个段落文本的文本内容包括句子和词；
[0008]利用预训练模型对每个段落文本中的句子进行编码，得到对应的编码结果；
[0009]通过卷积神经网络从所述编码结果中聚合每个句子的内部信息，获取每个句子的表征；
[001...

【技术保护点】

【技术特征摘要】
1.一种文本要素抽取方法，其特征在于，包括以下步骤：获取待进行文本要素抽取的目标文本，所述目标文本的字数超过预设值；按照预设业务规则对所述目标文本的文本内容进行段落分割，将所述目标文本拆分为多个段落文本；获取每个段落文本的文本内容；其中，每个段落文本的文本内容包括句子和词；利用预训练模型对每个段落文本中的句子进行编码，得到对应的编码结果；通过卷积神经网络从所述编码结果中聚合每个句子的内部信息，获取每个句子的表征；通过条件随机场从每个句子的表征中获取对应句子的上下文信息，得到所述目标文本的要素信息。2.根据权利要求1所述的文本要素抽取方法，其特征在于，所述方法还包括：获取符合业务规则的文本语料；对所述文本语料按照句号进行句子划分，得到多个句子级文本；将所述句子级文本的内容按照预先设定的要素标签进行标注，并将标准后的句子级文本转换为训练语料；根据所述训练语料进行训练，生成所述预训练模型。3.根据权利要求2所述的文本要素抽取方法，其特征在于，预先设定的要素标签包括：甲方名称和乙方名称，其中，所述甲方是指提出目标的一方，所述乙方是指实现所述甲方所提出的目标的另一方。4.根据权利要求1或2所述的文本要素抽取方法，其特征在于，按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括：按照换行符对所述目标文本的文本内容进行段落分割，将所述目标文本拆分为多个段落文本。5.根据权利要求1所述的文本要素抽取方法，其特征在于，所述预设值为512。6.一种文本要素抽取系统，其特征在于，包括有：第一采集...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人