一种基于SegaBert预训练模型的合同抽取方法技术

技术编号：30371756 阅读：21 留言：0更新日期：2021-10-16 17:53

本发明专利技术公开了一种基于SegaBert预训练模型的合同抽取方法通过从合同数据样本提取的信息，利用在合同中快速定位需要抽取的合同信息，因此，本发明专利技术可以准确快速地从待抽取合同中筛选出一种或者多种输出要信息；进一步地，对多个所述输出信息进行检验，得到每种输出信息对应的概率值，可以提高合同信息抽取方法的效率。本发明专利技术在预训练阶段，能利用更丰富的位置表征，对段落、句子、词语三者间的位置关系联合建模，对输入的文本能做到片段感知，学习到信息更丰富的上下文表示。这样的改进，提升了预训练语言模型的文本编码能力，使其在微调阶段得到更完善的句子和篇章表示，进而提升下游任务的预测效果。任务的预测效果。任务的预测效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SegaBert预训练模型的合同抽取方法

[0001]本专利技术涉及自然语言处理
，特别涉及文本数据处理
，尤其涉及一种基于SegaBert预训练模型的合同抽取方法。

技术介绍

[0002]合同是民事主体之间设立、变更、终止民事法律关系的协议，通常由民事主体之间根据想要约束的条款自由订立，因此不同合同之间格式各不相同，描述方式也有差别。一般一篇合同的字数接近几万字，在双方准备签订合同之前，通常需要对合同中的关键合同要素进行抽取并仔细查阅。
[0003]现有的抽取关键合同要素的方法通常是根据预设的实体识别规则，提取合同中一个或者多个实体，并对实体进行关系抽取和对实体关系进行求并集，得到最终的关键合同要素，这种方法需要维护实体识别和实体关系抽取两个方面，增大了处理层级关系的难度，同时建模困难，准确率较低。
[0004]现有技术中，合同抽取主要采用“预训练+微调”模式。其中，预训练是指采用大规模、与特定NLP任务无关的文本语料进行训练，其目标是学习语言本身应该是什么样的，使得模型输出的文本语义表示能够刻画语言的本质。微调是针对具体NLP任务而言，在预训练模型的基础上进行网络结构和参数的调整。但是，现有多数模型主要针对句子级别或者段落级别的NLP任务。对于文档级别输入较长的合同抽取任务，急需要一种适合合同的抽取方法。
[0005]目前，对现有合同需要结合合同档案库中与所述现有合同有关的合同进行相关数据分析，以及时对现有合同有更加全面的掌握，根据相关联的合同对现有合同进行分析，从而判...

【技术保护点】

【技术特征摘要】
1.一种基于SegaBert预训练模型的合同抽取方法，其特征在于，包括以下步骤：对中文合同进行预处理；对所述预处理的中文合同进行标注；利用神经网络对SegaBert预训练模型进行微调，在微调过程中，得到能够进行特定信息抽取的SegaBert模型；利用所述微调后的SegaBert模型对标注后的中文合同进行训练；检验训练后的SegaBert模型对抽取所述中文合同得到信息的准确度。2.如权利要求1所述的基于SegaBert预训练模型的合同抽取方法，其特征在于，所述预处理还包括将获取待抽取的中文合同按文件数量以8:1:1的比例划分为训练集、验证集和测试集。3.如权利要求2所述的基于SegaBert预训练模型的合同抽取方法，其特征在于，所述预处理包括获取待抽取的合同，并删除每份合同中的特殊字符和英文字符。4.如权利要求3所述的基于SegaBert预训练模型的合同抽取方法，其特征在于，所述预处理还包括确定命名实体，划分出需要标注的信息。5.如权利要求1所述的基于SegaBert预训练模型的合同抽取方法，其特征在于，所述标注包括将每个文字标注为“B
‑
X”、“I
‑
X”或“O”，其中，“B
‑
X”表示此文字所在的片段属于X类型并且此文字在此片段的开头，“I
‑
X”表示此文字所在的片段属于X类型并且此文字在此片段的中间位置，“O”表示此文字不属于任何类型。6.如权利要求1所述的基于SegaBert预训练模...

【专利技术属性】
技术研发人员：郭文峰，戴良智，娄旭芳，王靖波，李明，
申请(专利权)人：宁波薄言信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人