基于机器学习的两阶段合同必备条款缺失风险预警方法技术

技术编号:27204938 阅读:26 留言:0更新日期:2021-01-31 12:25
本发明专利技术公开了一种基于机器学习的两阶段合同必备条款缺失的风险预警方法。在第一阶段,计算必备条款与用户条款间的相似性,将相似的置信度低于阈值的,作为必备条款相似候选集合。在第二阶段,计算候选集中用户条款与必备条款风险描述的匹配值,删除候选中低于阈值的条款候选,若存在匹配值高于等于阙值,说明用户合同中该必备条款表述不规范,给出建议修改该条款的预警,否则给出必备条款缺失预警。本发明专利技术针对合同必备条款缺失预警,设计了通过学习条款与风险描述关系,以及重要词掩码任务训练Bert模型的方式,提高Bert模型对必备条款的语义理解能力。并在第二阶段使用该模型,提高了现有合同条款缺失风险预警方法的准确性。高了现有合同条款缺失风险预警方法的准确性。高了现有合同条款缺失风险预警方法的准确性。

【技术实现步骤摘要】
基于机器学习的两阶段合同必备条款缺失风险预警方法


[0001]本专利技术涉及机器学习
,具体涉及一种基于机器学习的两阶段合 同必备条款缺失风险预警方法。

技术介绍

[0002]随着5G时代的到来,传统法律行业将不可避免的受到冲击。在整个合 同起草到签订的过程中,合同的审核是最为费时费力的。而合同审核中最基 本的步骤是判断合同是否有必备条款缺失,对于非专业人士来说这是一件极 具挑战的事。但是如果能有效提示用户是否有必备条款缺失,以及该必备条 款缺失所造成的风险描述,就能让非专业人士具备一定的审核合同的能力, 一定程度上还能节省律师审核合同的时间。
[0003]在人工智能技术的飞速发展背景下,现有技术对合同必备条款缺失检测 方法主要是依次计算必备条款与待检测合同中条款间相似性,对于未能匹配 到的必备条款,即在检测合同中没有一条与该必备条款相似,提示存在必备 条款缺失,并可选的给出该必备条款缺失对应的风险描述。目前常见的方法 是将必备条款以及待检测合同条款利用机器学习的方法表征为特征向量,之 后计算特征向量的相似距离作为相似性,并通过给一个经验的阈值划分条款 是否匹配。而随着预训练语言模型的兴起,使用大量通用领域语料预训练的 模型,在下游任务上微调训练能表现超过传统机器学习方法的效果。预训练 模型,尤其是Bert越来越多被应用于法律文本处理任务上。
[0004]现有技术的缺点如下:
[0005]1、传统机器学习的相似度计算依赖于字词间的相似。如果相似阈值设 置过低,容易将用词相似的不同条款误识为同一条款,识别准确性差。如果 相似阈值设置过高,能极大提高准确性,但容易漏检匹配的条款。
[0006]2、必备条款缺失所造成的风险描述具有良好的通用性,并且与缺失必 备条款间有很强的语义相关性,尚未有人挖掘这种语义相似性来做条款缺失 预警。
[0007]3、Bert模型具有强大的语义理解能力。使用在条款匹配上一定程度优 于传统方法。但直接将条款作为训练输入集,Bert容易拟合的仍然是条款间 字面意义的相似,而不是语义的相似性。因此相比于传统机器学习方法,优 势并不明显。
[0008]4、中文Bert模型预训练中,通常采用随机的以字为单位的掩码预训练。 而针对特定领域任务,没有考虑到不同的词在上下文关系中重要性不同。
[0009]5、对于合同中非专业人士撰写的某项不标准的必备条款,可能具有法 律隐患。一种好的处理方式是对该必备条款,做出预警,提示用户建议修改 的意见。

技术实现思路

[0010]本专利技术提出了针对合同必备条款缺失预警的Bert模型训练方法,并由此 提出一种基于机器学习的两阶段合同必备条款缺失风险预警方法,以解决现 有技术的不足。
[0011]一种基于机器学习的两阶段合同必备条款缺失风险预警方法,包括以下 步骤:
[0012]1)构建必备条款与必备条款匹配的风险描述的条款完备知识库,作为 种子样本;
[0013]2)通过变换种子样本中的必备条款与风险描述的输入顺序,以及随机 抽样替换种子样本的必备条款或风险描述,产生四种类别的样本作为预训练 阶段的输入样本;
[0014]3)构建法律用词的逆文档频率(IDF)词典,将预训练阶段的输入样本 输入到Bert模型中,在预训练阶段使用法律用词的逆文档频率(IDF)词典 产生每个词被掩码的概率,并根据此概率进行掩码训练,得到预训练模型;
[0015]4)通过条款完备知识库获取必备条款与其对应的风险描述作为正样本, 然后按照策略生成负样本;
[0016]5)将步骤4)中得到的正样本和负样本输入到步骤3)中得到的预训练 模型中,按照样本中必备条款与风险描述是否匹配进行二分类训练,将分类 为正样本的概率值作为置信度,得到训练后的模型;
[0017]6)对合同必备条款缺失风险预警。
[0018]本专利技术中,在第一阶段,计算必备条款与用户条款间的相似性,将相似 的置信度低于阈值的,作为必备条款相似候选集合。在第二阶段,计算候选 集中用户条款与必备条款风险描述的匹配值,删除候选中低于阈值的条款候 选,若存在必备条款候选条款数量为空,使用该对应风险描述依次匹配用户 条款中未被匹配到的条款,若存在匹配值高于阙值,说明用户合同中该必备 条款表述不规范,造成第一阶段与必备条款相似度差异大,给出建议修改该 条款的预警,否则给出必备条款缺失预警。本专利技术针对合同必备条款缺失预 警,设计了通过学习条款与风险描述关系,以及重要词掩码任务训练Bert 模型的方式,提高Bert模型对必备条款的语义理解能力。并在第二阶段使用 该模型,提高了现有合同条款缺失风险预警方法的准确性。
[0019]步骤1)中,所述的种子样本包括必备条款与必备条款匹配的风险描述。
[0020]步骤2)中,四种类别的样本包括:
[0021]A类别:必备条款,与所述必备条款匹配的风险描述;
[0022]B类别:必备条款,与所述必备条款不匹配的风险描述;
[0023]C类别:风险描述,与所述风险描述匹配的必备条款;
[0024]D类别:风险描述,与所述风险描述不匹配的必备条款。
[0025]步骤4)中,按照策略生成负样本,具体包括:
[0026]将条款完备知识库中所有的必备条款以及风险描述用步骤3)中得到的 预训练模型表示为固定维度的向量,固定正样本中必备条款不变,寻找与该 必备条款向量距离最近的设定数量的必备条款,使用其对应的风险描述作为 负样本;固定正样本中风险描述不变,寻找与风险描述向量距离最近的设定 数量的风险描述,使用其(即这些风险描述)对应的必备条款作为负样本。
[0027]步骤6)中,对合同必备条款缺失风险预警具体包括:
[0028]6.1)根据需要必备条款风险预警的合同作为输入合同,明确合同的类型, 提取合同条款,并在条款完备知识库找到该类型合同的必备条款以及对应的 风险描述,作为待匹配集合;
[0029]6.2)利用XGBoost模型计算步骤6.1))中待匹配集合中每一个必备条款 与输入合同中每一条款之间的相似分数,并按照相似分数从大到小排序,依 次遍历,如果相似分数
高于条款匹配阙值表示待匹配集合中该必备条款得到 匹配,然后从相似分数中去掉包含该必备条款的所有相似分数,得到未被必 备条款匹配的待匹配集合;
[0030]6.3)未被必备条款匹配的待匹配集合中剩余的必备条款,利用XGBoost 模型计算与输入合同中必备条款之间的相似度,保存与未被必备条款匹配的 待匹配集合中每一个必备条款的相似度最接近设定数量的输入合同中必备 条款,作为该必备条款的候选集合,未被必备条款匹配的待匹配集合的多个 必备条款建立多个候选集合,使用步骤5)得到的训练后的模型依次计算未 被必备条款匹配的待匹配集合中的每一个必备条款对应的风险描述与每一 个候选集合中条款的匹配性,删除候选集合中低于条款与风险描述匹配阙值 的条款,得到筛选后的候选集合;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的两阶段合同必备条款缺失风险预警方法,其特征在于,包括以下步骤:1)构建必备条款与必备条款匹配的风险描述的条款完备知识库,作为种子样本;2)通过变换种子样本中的必备条款与风险描述的输入顺序,以及随机抽样替换种子样本的必备条款或风险描述,产生四种类别的样本作为预训练阶段的输入样本;3)构建法律用词的逆文档频率词典,将预训练阶段的输入样本输入到Bert模型中,在预训练阶段使用法律用词的逆文档频率词典产生每个词被掩码的概率,并根据此概率进行掩码训练,得到预训练模型;4)通过条款完备知识库获取必备条款与其对应的风险描述作为正样本,然后按照策略生成负样本;5)将步骤4)中得到的正样本和负样本输入到步骤3)中得到的预训练模型中,按照样本中必备条款与风险描述是否匹配进行二分类训练,将分类为正样本的概率值作为置信度,得到训练后的模型;6)对合同必备条款缺失风险预警。2.根据权利要求1所述的基于机器学习的两阶段合同必备条款缺失风险预警方法,其特征在于,步骤1)中,所述的种子样本包括必备条款与必备条款匹配的风险描述。3.根据权利要求1所述的基于机器学习的两阶段合同必备条款缺失风险预警方法,其特征在于,步骤2)中,四种类别的样本包括:A类别:必备条款,与所述必备条款匹配的风险描述;B类别:必备条款,与所述必备条款不匹配的风险描述;C类别:风险描述,与所述风险描述匹配的必备条款;D类别:风险描述,与所述风险描述不匹配的必备条款。4.根据权利要求1所述的基于机器学习的两阶段合同必备条款缺失风险预警方法,其特征在于,步骤4)中,按照策略生成负样本,具体包括:将条款完备知识库中所有的必备条款以及风险描述用步骤3)中得到的预训练模型表示为固定维度的向量,固定正样本中必备条款不变,寻找与该必备条款向量距离最近的设定数量的必备条款,使用其对应的风险描述作为负样本;固定正样本中风险描述不变,寻找与风险描述向量距离最近的设定数量的风险描述,使用其对应的必备条款作为负样本。5.根据权利要求1所述的基于机器学习的两阶段合同必备条款缺失风险预警方法,其特征在于,步骤6)中,对合同必备条款缺失风险预警具体包括:6.1)根据...

【专利技术属性】
技术研发人员:谢泽星吴青昀徐俊杰
申请(专利权)人:杭州尚尚签网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1