一种合同风险点识别方法以及装置制造方法及图纸

技术编号:37234842 阅读:5 留言:0更新日期:2023-04-20 23:16
本发明专利技术公开了一种合同风险点识别方法以及装置,包括:构建并训练用于对合同风险点检测的合同风险点识别模型;将待识别合同进行预处理后得到的条款文本集输入训练完成的所述合同风险点识别模型中,通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对;通过所述语义相关性召回模块对所述条款文本集进行向量化,得到高维条款向量,并对所述高维条款向量进行向量检索,得到预设数量的相似条款;将所述数据对以及所述相似条款根据风险点进行合并,得到所述风险点的条款召回集,通过所述语义排序模块对所述条款召回集进行语义相关性排序,得到条款风险点识别结果。能够降低合同风险点的漏检或错检的概率。同风险点的漏检或错检的概率。同风险点的漏检或错检的概率。

【技术实现步骤摘要】
一种合同风险点识别方法以及装置


[0001]本专利技术涉及智能法律
,尤其涉及一种合同风险点识别方法以及装置。

技术介绍

[0002]目前基于条款关键词的风险识别系统无法正确理解合同上下文和段落语义,针对非标准合同或者非标准表达的合同条款,存在漏检/错检的情况。并且,风险关键词和规则需依赖大量人工沉淀,缺乏泛化能力,现有方式只能针对设定过的合同模板进行处理,无法将风险识别效果泛化到该场景的其他合同文件中。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提出一种合同风险点识别方法、装置以及设备,旨在解决上述问题。
[0004]为实现上述目的,本专利技术提供一种合同风险点识别方法,所述方法包括:
[0005]构建并训练用于对合同风险点检测的合同风险点识别模型,所述合同风险点识别模型包括词汇相关性召回模块、语义相关性召回模块以及语义排序模块;
[0006]将待识别合同进行预处理后得到的条款文本集输入训练完成的所述合同风险点识别模型中,通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对;
[0007]通过所述语义相关性召回模块对所述条款文本集进行向量化,得到高维条款向量,并对所述高维条款向量进行向量检索,得到预设数量的相似条款;
[0008]将所述数据对以及所述相似条款根据风险点进行合并,得到所述风险点的条款召回集,通过所述语义排序模块对所述条款召回集进行语义相关性排序,得到条款风险点识别结果。
[0009]进一步,所述词汇相关性召回模块基于ES数据库进行搭建;在训练时,将法律合同文件中通过人工标注的合同条款和风险点作为样本数据输入所搭建的所述ES数据库进行训练,得到所述词汇相关性召回模块。
[0010]进一步,所述语义相关性召回模块基于Milvus向量数据库进行搭建;在训练时,利用自适应领域增强将法律合同文件输入预训练语言模型进行训练,得到增强后的所述预训练语言模型对标注有风险点的合同条款进行向量化,得到高维条款向量存储于所述Milvus向量数据库,得到所述语义相关性召回模块。
[0011]进一步,所述语义排序模块利用深度语义匹配模型作为模型框架;通过所构建的正负样本作为样本数据输入所述深度语义匹配模型进行训练,得到所述语义排序模块;其中,所述正负样本包括将每一风险点的预设标准表述条款与所述ES数据库中对应的风险点的所有标注的合同条款进行两两组合。
[0012]进一步,所述通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对,包括:
[0013]筛选所述条款文本集中的条款文本长度大于第一阈值的合同条款作为检索条款,输入所述词汇相关性召回模块进行相似文本搜索,得到所述搜索结果;
[0014]将所述搜索结果按照词汇相关性的高低进行排序后并以预设数据结构的返回结果输出,所述预设数据结构包括合同条款、风险点、相关性分数;
[0015]将所述返回结果按照风险点进行聚合,并对聚合的风险点的所述相关性分数进行求和,将求和后的分数大于第二阈值的所述检索条款以及所述返回结果进行组合,作为所述数据对。
[0016]进一步,所述通过所述语义排序模块对所述条款召回集进行语义相关性排序,得到条款风险点识别结果,包括:
[0017]通过所述语义排序模块对每一风险点的预设标准表述条款与所述条款召回集进行语义相关性排序,获取预设数量的输出结果;
[0018]选取所述输出结果中对应的所述相关性分数大于第三阈值的所述检索条款,基于所述检索条款确定对应的合同条款以及风险点,得到所述条款风险点识别结果。
[0019]为实现上述目的,本专利技术还提供一种合同风险点识别装置,所述装置包括:
[0020]模型构建单元,用于构建并训练用于对合同风险点检测的合同风险点识别模型,所述合同风险点识别模型包括词汇相关性召回模块、语义相关性召回模块以及语义排序模块;
[0021]文本搜索单元,用于将待识别合同进行预处理后得到的条款文本集输入训练完成的所述合同风险点识别模型中,通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对;
[0022]向量检索单元,用于通过所述语义相关性召回模块对所述条款文本集进行向量化,得到高维条款向量,并对所述高维条款向量进行向量检索,得到预设数量的相似条款;
[0023]语义排序单元,用于将所述数据对以及所述相似条款根据风险点进行合并,得到所述风险点的条款召回集,通过所述语义排序模块对所述条款召回集进行语义相关性排序,得到条款风险点识别结果。
[0024]进一步,所述文本搜索单元,包括:
[0025]筛选搜索单元,用于筛选所述条款文本集中的条款文本长度大于第一阈值的合同条款作为检索条款,输入所述词汇相关性召回模块进行相似文本搜索,得到所述搜索结果;
[0026]排序输出单元,用于将所述搜索结果按照词汇相关性的高低进行排序后并以预设数据结构的返回结果输出,所述预设数据结构包括合同条款、风险点、相关性分数;
[0027]数据组合单元,用于将所述返回结果按照风险点进行聚合,并对聚合的风险点的所述相关性分数进行求和,将求和后的分数大于第二阈值的所述检索条款以及所述返回结果进行组合,作为所述数据对。
[0028]进一步,所述语义排序单元,包括:
[0029]相关性排序单元,用于通过所述语义排序模块对每一风险点的预设标准表述条款与所述条款召回集进行语义相关性排序,获取预设数量的输出结果;
[0030]结果选取单元,用于选取所述输出结果中对应的所述相关性分数大于第三阈值的所述检索条款,基于所述检索条款确定对应的合同条款以及风险点,得到所述条款风险点识别结果。
[0031]为了实现上述目的,本专利技术还提出一种合同风险点识别设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种合同风险点识别方法的步骤。
[0032]有益效果:
[0033]本专利技术通过融合多种法律合同语义相关性检测算法,构建并训练完成的合同风险点识别模型能够适用多种应用场景下实现合同条款风险点的识别,能够将风险识别效果泛化到相应场景的其他合同文件中,降低合同风险点的漏检或错检的概率。
[0034]本专利技术通过利用自适应领域增强将法律合同文件输入预训练语言模型进行训练,得到增强后的预训练语言模型对合同条款进行向量化,能够使预训练语言模型能更快迁移到指定领域,从而具有更强的领域表征能力,进而使得对于法律领域的词汇、句法、语义有更好的表征效果。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同风险点识别方法,其特征在于,所述方法包括:构建并训练用于对合同风险点检测的合同风险点识别模型,所述合同风险点识别模型包括词汇相关性召回模块、语义相关性召回模块以及语义排序模块;将待识别合同进行预处理后得到的条款文本集输入训练完成的所述合同风险点识别模型中,通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对;通过所述语义相关性召回模块对所述条款文本集进行向量化,得到高维条款向量,并对所述高维条款向量进行向量检索,得到预设数量的相似条款;将所述数据对以及所述相似条款根据风险点进行合并,得到所述风险点的条款召回集,通过所述语义排序模块对所述条款召回集进行语义相关性排序,得到条款风险点识别结果。2.根据权利要求1所述的一种合同风险点识别方法,其特征在于,所述词汇相关性召回模块基于ES数据库进行搭建;在训练时,将法律合同文件中通过人工标注的合同条款和风险点作为样本数据输入所搭建的所述ES数据库进行训练,得到所述词汇相关性召回模块。3.根据权利要求2所述的一种合同风险点识别方法,其特征在于,所述语义相关性召回模块基于Milvus向量数据库进行搭建;在训练时,利用自适应领域增强将法律合同文件输入预训练语言模型进行训练,得到增强后的所述预训练语言模型对标注有风险点的合同条款进行向量化,得到高维条款向量存储于所述Milvus向量数据库,得到所述语义相关性召回模块。4.根据权利要求2所述的一种合同风险点识别方法,其特征在于,所述语义排序模块利用深度语义匹配模型作为模型框架;通过所构建的正负样本作为样本数据输入所述深度语义匹配模型进行训练,得到所述语义排序模块;其中,所述正负样本包括将每一风险点的预设标准表述条款与所述ES数据库中对应的风险点的所有标注的合同条款进行两两组合。5.根据权利要求1所述的一种合同风险点识别方法,其特征在于,所述通过所述词汇相关性召回模块进行相似文本搜索,得到搜索结果,并对所述搜索结果进行处理,得到数据对,包括:筛选所述条款文本集中的条款文本长度大于第一阈值的合同条款作为检索条款,输入所述词汇相关性召回模块进行相似文本搜索,得到所述搜索结果;将所述搜索结果按照词汇相关性的高低进行排序后并以预设数据结构的返回结果输出,所述预设数据结构包括合同条款、风险点、相关性分数;将所述返回结果按照风险点进行聚合,并对聚合的风险点的所述相关性分数进行求和,将求和后的分数大于第二阈值的所述检索条款以及所述返回结果进行组合,作为所述数据对。6.根据权利要求5所述的一种合同风险点识别方法,其特征在于,所述通过所述语义...

【专利技术属性】
技术研发人员:张天金谢华平李岚施秋勇洪思睿
申请(专利权)人:厦门易法通法务信息管理股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1