大语言模型的微调训练方法、合同风险评审方法及系统技术方案

技术编号:38872193 阅读:10 留言:0更新日期:2023-09-22 14:08
本发明专利技术涉及大语言模型的微调训练方法、合同风险评审方法及系统,所述大语言模型用于对合同文件进行合同风险评审;所述微调训练方法包括:S10、获取历史评审数据并进行预处理,得到训练数据集;所述历史评审数据包括历史合同文件、与所述历史合同文件关联的历史评审结果;所述训练数据集包括:基于所述历史合同文件中提取的初始条例生成的训练query、基于所述初始条例的历史评审结果生成的训练answer;S20、基于所述训练数据集对所述大语言模型进行微调训练,得到微调训练后的大语言模型。本发明专利技术的方法能够提升合同风险评审精度和效率。发明专利技术的方法能够提升合同风险评审精度和效率。发明专利技术的方法能够提升合同风险评审精度和效率。

【技术实现步骤摘要】
大语言模型的微调训练方法、合同风险评审方法及系统


[0001]本专利技术涉及合同风险评审
,尤其涉及大语言模型的微调训练方法、合同风险评审方法及系统。

技术介绍

[0002]合同是民事主体之间设立、变更、终止民事法律关系的协议。在合同流程的各个阶段,合同的相关方往往需要对合同进行阅读评审以确定合同中的条款符合相关方的意愿且符合法律和行业规定,以规避潜在的法律风险。
[0003]传统的合同风险评审方法是将合同文件内容显示出来供管理员审阅,其操作方式通常是采用人工评审合同的内容,这种方式增加了管理员的劳动强度,长期的审阅容易导致人员疲劳,出现错误。由于审核的工作量巨大,合同评审工作的效率低下,而且工作质量也受到了人员的专业素质以及经验阅历的影响。
[0004]一些现有技术提供的产品通过使用人工智能来解决上述问题,其一般使用传统的机器学习和深度学习算法,利用NLP(Natural Language Processing,自然语言处理)作为技术手段,对人工的合同风险评审起到一定的辅助作用,但是由于其效率不高,精准度低,反馈结果呆板,因而饱受用户诟病。

技术实现思路

[0005](一)要解决的技术问题
[0006]鉴于现有技术的上述缺点、不足,本专利技术提供一种大语言模型的微调训练方法、合同风险评审方法及系统,其解决了现有技术中,合同评审工作效率和精准度较低的技术问题。
[0007](二)技术方案
[0008]为了达到上述目的,本专利技术采用的主要技术方案包括:r/>[0009]第一方面,本专利技术实施例提供一种大语言模型(Large Language Model,LLM)的微调训练方法,所述大语言模型用于对合同文件进行合同风险评审;所述微调训练方法包括:
[0010]S10、获取历史评审数据并进行预处理,得到训练数据集;
[0011]所述历史评审数据包括历史合同文件、与所述历史合同文件关联的历史评审结果;
[0012]所述训练数据集包括:基于所述历史合同文件中提取的初始条例生成的训练query、基于所述初始条例的历史评审结果生成的训练answer;
[0013]S20、基于所述训练数据集对所述大语言模型进行微调训练,得到微调训练后的大语言模型。
[0014]可选地,所述S10包括:
[0015]S101、获取历史评审数据;
[0016]S102、对所述历史评审数据中的历史合同文件进行段落分割处理,得到多个初始
段落作为初始条例;
[0017]S103、使用统计模型对所述初始条例进行特征提取处理,得到与所述初始条例关联的初始条例向量;
[0018]S104、基于所述初始条例向量查找合同模板条例库,得到与所述初始条例向量的余弦距离最近的模板条例向量,将所述模板条例向量关联的模板条例对应的评审类别,作为所述初始条例的评审类别;
[0019]其中,所述合同模板条例库包括多个模板条例,以及每个模板条例关联的模板条例向量和评审类别;所述合同模板条例库基于预先的构建过程得到;
[0020]所述评审类别包括:需要进行合同风险评审的待评审类、不需要进行合同风险评审的非评审类;
[0021]S105、筛选所有待评审类的初始条例,基于该初始条例,根据预先定义的prompt(提示词)模板生成训练query,并基于该初始条例对应的历史评审结果,生成该训练query关联的训练answer;
[0022]S106、集合所有的训练query和关联的训练answer,作为训练数据集。
[0023]可选地,在S104中,所述构建过程包括:
[0024]S104

1、获取标准合同模板数据;所述标准合同模板数据包括多个标准模板合同文件;
[0025]S104

2、对所述标准模板合同文件进行段落分割处理,得到多个模板段落作为模板条例;
[0026]S104

3、根据预先定义的合同风险评审策略确定所述模板条例的评审类别;以及,使用统计模型对所述模板条例进行特征提取处理,得到该模板条例关联的模板条例向量。
[0027]可选地,在S104中,所述余弦距离基于余弦距离公式计算得到;所述余弦距离公式为:
[0028][0029]其中,表示初始条例向量和模板条例向量的余弦距离,表示初始条例向量,表示模板条例向量,表示初始条例向量的2

范数,表示模板条例向量的2

范数。
[0030]可选地,所述统计模型为:完成训练的、具有适配模型参数的TF

IDF(Term Frequency

Inverse Document Frequency,词频

逆向文档频率)模型。
[0031]可选地,所述历史评审结果包括:风险级别、具体评审内容;
[0032]其中,所述具体评审内容为历史评审结果中管理员提交的历史评价文本中的内容。
[0033]可选地,所述预定义的prompt模板为:
[0034]{query:当前任务为合同评审实例,请根据[初始条例]条款,回答对应的情况,要求结果包括风险级别和具体评审内容};
[0035]其中,所述初始条例为对应的初始段落原文。
[0036]可选地,所述大语言模型为完成预训练的ChatGPT(Chat Generative Pre

trained Transformer,OpenAI机构研发的聊天机器人程序)模型或ChatGLM(Chat General Language Model,智谱AI研发的一个生成式对话模型)模型。
[0037]第二方面,本专利技术实施例提供一种合同风险评审方法,用于基于第一方面所述的微调训练后的大语言模型进行评审,所述评审方法包括:
[0038]T10、获取待评审的合同文件;
[0039]T20、对所述待评审的合同文件进行段落分割处理,得到多个原始条例;
[0040]T30、使用统计模型对所述原始条例进行特征提取处理,得到与所述原始条例关联的原始条例向量;
[0041]T40、基于所述原始条例向量查找合同模板条例库,得到与所述初始条例向量的余弦距离最近的模板条例向量;将所述模板条例向量关联的模板条例对应的评审类别,作为所述原始条例的评审类别;
[0042]所述评审类别包括:需要进行合同风险评审的待评审类、不需要进行合同风险评审的非评审类;
[0043]T50、对于待评审类的原始条例,基于该原始条例,根据预先定义的prompt模板生成query,将所述query输入微调训练后的大语言模型,得到评审结果。
[0044]第三方面,本专利技术实施例提供一种合同风险评审系统,包括:
[0045]业务员端,用于接收业务员上传的待评审的合同文件;
[0046]合同管理平台,用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大语言模型的微调训练方法,其特征在于,所述大语言模型用于对合同文件进行合同风险评审;所述微调训练方法包括:S10、获取历史评审数据并进行预处理,得到训练数据集;所述历史评审数据包括历史合同文件、与所述历史合同文件关联的历史评审结果;所述训练数据集包括:基于所述历史合同文件中提取的初始条例生成的训练query、基于所述初始条例的历史评审结果生成的训练answer;S20、基于所述训练数据集对所述大语言模型进行微调训练,得到微调训练后的大语言模型。2.根据权利要求1所述的微调训练方法,其特征在于,所述S10包括:S101、获取历史评审数据;S102、对所述历史评审数据中的历史合同文件进行段落分割处理,得到多个初始段落作为初始条例;S103、使用统计模型对所述初始条例进行特征提取处理,得到与所述初始条例关联的初始条例向量;S104、基于所述初始条例向量查找合同模板条例库,得到与所述初始条例向量的余弦距离最近的模板条例向量,将所述模板条例向量关联的模板条例对应的评审类别,作为所述初始条例的评审类别;其中,所述合同模板条例库包括多个模板条例,以及每个模板条例关联的模板条例向量和评审类别;所述合同模板条例库基于预先的构建过程得到;所述评审类别包括:需要进行合同风险评审的待评审类、不需要进行合同风险评审的非评审类;S105、筛选所有待评审类的初始条例,基于该初始条例,根据预先定义的prompt模板生成训练query,并基于该初始条例对应的历史评审结果,生成该训练query关联的训练answer;S106、集合所有的训练query和关联的训练answer,作为训练数据集。3.根据权利要求2所述的微调训练方法,其特征在于,在S104中,所述构建过程包括:S104

1、获取标准合同模板数据;所述标准合同模板数据包括多个标准模板合同文件;S104

2、对所述标准模板合同文件进行段落分割处理,得到多个模板段落作为模板条例;S104

3、根据预先定义的合同风险评审策略确定所述模板条例的评审类别;以及,使用统计模型对所述模板条例进行特征提取处理,得到该模板条例关联的模板条例向量。4.根据权利要求2或3所述的微调训练方法,其特征在于,在S104中,所述余弦距离基于余弦距离公式计算得到;所述余弦距离公式为:其中,表示初始条...

【专利技术属性】
技术研发人员:曹金磊王佳楠陈江义毛俊杰汪茹
申请(专利权)人:浙江中控技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1