一种基于SegaBert预训练模型的合同抽取方法技术

技术编号:30371756 阅读:21 留言:0更新日期:2021-10-16 17:53
本发明专利技术公开了一种基于SegaBert预训练模型的合同抽取方法通过从合同数据样本提取的信息,利用在合同中快速定位需要抽取的合同信息,因此,本发明专利技术可以准确快速地从待抽取合同中筛选出一种或者多种输出要信息;进一步地,对多个所述输出信息进行检验,得到每种输出信息对应的概率值,可以提高合同信息抽取方法的效率。本发明专利技术在预训练阶段,能利用更丰富的位置表征,对段落、句子、词语三者间的位置关系联合建模,对输入的文本能做到片段感知,学习到信息更丰富的上下文表示。这样的改进,提升了预训练语言模型的文本编码能力,使其在微调阶段得到更完善的句子和篇章表示,进而提升下游任务的预测效果。任务的预测效果。任务的预测效果。

【技术实现步骤摘要】
一种基于SegaBert预训练模型的合同抽取方法


[0001]本专利技术涉及自然语言处理
,特别涉及文本数据处理
,尤其涉及一种基于SegaBert预训练模型的合同抽取方法。

技术介绍

[0002]合同是民事主体之间设立、变更、终止民事法律关系的协议,通常由民事主体之间根据想要约束的条款自由订立,因此不同合同之间格式各不相同,描述方式也有差别。一般一篇合同的字数接近几万字,在双方准备签订合同之前,通常需要对合同中的关键合同要素进行抽取并仔细查阅。
[0003]现有的抽取关键合同要素的方法通常是根据预设的实体识别规则,提取合同中一个或者多个实体,并对实体进行关系抽取和对实体关系进行求并集,得到最终的关键合同要素,这种方法需要维护实体识别和实体关系抽取两个方面,增大了处理层级关系的难度,同时建模困难,准确率较低。
[0004]现有技术中,合同抽取主要采用“预训练+微调”模式。其中,预训练是指采用大规模、与特定NLP任务无关的文本语料进行训练,其目标是学习语言本身应该是什么样的,使得模型输出的文本语义表示能够刻画语言的本质。微调是针对具体NLP任务而言,在预训练模型的基础上进行网络结构和参数的调整。但是,现有多数模型主要针对句子级别或者段落级别的NLP任务。对于文档级别输入较长的合同抽取任务,急需要一种适合合同的抽取方法。
[0005]目前,对现有合同需要结合合同档案库中与所述现有合同有关的合同进行相关数据分析,以及时对现有合同有更加全面的掌握,根据相关联的合同对现有合同进行分析,从而判断现有合同中的内容是否合理,是否存在需要修改或者规避风险的内容,但是,目前从合同档案库中查找与现有合同相关联的合同,以及判断是否需要对现有合同进行修改,都是通过人工进行区分,浪费大量的人力,在工作量大的情况下还很容易出错,因此,如何快速判定现有合同的可行性是亟待解决的技术问题。

技术实现思路

[0006]本专利技术的目的在于提供一种基于SegaBert预训练模型的合同抽取方法用于提升了预训练语言模型的文本编码能力,使其在微调阶段得到更完善的表示,进而提升下游任务的预测效果。
[0007]一种基于SegaBert预训练模型的合同抽取方法,包括以下步骤:
[0008]对中文合同进行预处理;
[0009]对所述预处理的中文合同进行标注;
[0010]利用神经网络对SegaBert预训练模型进行微调,在微调过程中,得到能够进行特定信息抽取的SegaBert模型;
[0011]利用所述微调后的SegaBert模型对标注后的中文合同进行训练;
[0012]检验训练后的SegaBert模型对抽取所述中文合同得到信息的准确度。
[0013]在其中一个实施例中,所述预处理还包括将获取待抽取的中文合同按文件数量以8:1:1的比例划分为训练集、验证集和测试集。
[0014]在其中一个实施例中,所述预处理包括获取待抽取的合同,并删除每份合同中的特殊字符和英文字符。
[0015]在其中一个实施例中,所述预处理还包括确定命名实体,划分出需要标注的信息。
[0016]在其中一个实施例中,所述标注包括将每个文字标注为“B

X”、“I

X”或“O”,其中,“B

X”表示此文字所在的片段属于X类型并且此文字在此片段的开头,“I

X”表示此文字所在的片段属于X类型并且此文字在此片段的中间位置,“O”表示此文字不属于任何类型。
[0017]在其中一个实施例中,所述微调过程包括根据所述特定信息的文本数据规模,将所述SegaBert预训练模型结构设置为8层Transformer编码器和1层线性层,所述每层Transformer编码器具有512维隐层和6个多头注意力,所述线性层通过Softmax函数来预测每个文字实体状态的概率。
[0018]在其中一个实施例中,所述Softmax函数为:P=Softmax(Wh
[BIO]+b);
[0019]其中,h
[BIO]是每个文字BIO标注状态的向量,W和b是线性层的参数,P表示每个文字预测某种实体状态的Softmax函数概率分布。
[0020]在其中一个实施例中,所述SegaBert模型训练包括通过在所述训练集上进行训练,并在所述验证集上验证训练效果,得出最优模型。
[0021]在其中一个实施例中,所述最优模型时参数设置为:
[0022]批大小为16;
[0023]学习率为1e

4(1%warm

up,linear decay);
[0024]迭代次数为100K steps;
[0025]优化器为Adam。
[0026]在其中一个实施例中,通过所述训练后的SegaBert模型进行对所述测试集的合同信息抽取检验,查看抽取得到的内容是否正确与完整。
[0027]一种电子设备,包括:存储器以及一个或多个处理器;
[0028]其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现以上任一项实施例所述的方法。
[0029]一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现以上任一项实施例所述的方法。
[0030]一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现以上任一项实施例所述的方法。
[0031]上述技术方案具有如下优点或有益效果:
[0032]本专利技术这种基于SegaBert预训练模型的合同抽取方法通过从合同数据样本提取的信息,利用在合同中快速定位需要抽取的合同信息,因此,本专利技术可以准确快速地从待抽取合同中筛选出一种或者多种输出要信息;进一步地,对多个所述输出信息进行检验,得到每种输出信息对应的概率值,可以提高合同信息抽取方法的效率。本专利技术在预训练阶段,能
利用更丰富的位置表征,对段落、句子、词语三者间的位置关系联合建模,对输入的文本能做到片段感知,学习到信息更丰富的上下文表示。这样的改进,提升了预训练语言模型的文本编码能力,使其在微调阶段得到更完善的句子和篇章表示,进而提升下游任务的预测效果。同时结合语法引擎,增加对标注和训练样本预处理,能够筛选出更合理的数据,并自动泛化出一系列意思相近的样本数据,极大地增加了覆盖面,提高了模型的精准度。
附图说明
[0033]图1是本专利技术现有合同抽取方法的流程图;
[0034]图2是本专利技术一种基于SegaBert预训练模型的合同抽取方法的流程图。
具体实施方式
[0035]为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SegaBert预训练模型的合同抽取方法,其特征在于,包括以下步骤:对中文合同进行预处理;对所述预处理的中文合同进行标注;利用神经网络对SegaBert预训练模型进行微调,在微调过程中,得到能够进行特定信息抽取的SegaBert模型;利用所述微调后的SegaBert模型对标注后的中文合同进行训练;检验训练后的SegaBert模型对抽取所述中文合同得到信息的准确度。2.如权利要求1所述的基于SegaBert预训练模型的合同抽取方法,其特征在于,所述预处理还包括将获取待抽取的中文合同按文件数量以8:1:1的比例划分为训练集、验证集和测试集。3.如权利要求2所述的基于SegaBert预训练模型的合同抽取方法,其特征在于,所述预处理包括获取待抽取的合同,并删除每份合同中的特殊字符和英文字符。4.如权利要求3所述的基于SegaBert预训练模型的合同抽取方法,其特征在于,所述预处理还包括确定命名实体,划分出需要标注的信息。5.如权利要求1所述的基于SegaBert预训练模型的合同抽取方法,其特征在于,所述标注包括将每个文字标注为“B

X”、“I

X”或“O”,其中,“B

X”表示此文字所在的片段属于X类型并且此文字在此片段的开头,“I

X”表示此文字所在的片段属于X类型并且此文字在此片段的中间位置,“O”表示此文字不属于任何类型。6.如权利要求1所述的基于SegaBert预训练模...

【专利技术属性】
技术研发人员:郭文峰戴良智娄旭芳王靖波李明
申请(专利权)人:宁波薄言信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1