基于机器阅读理解的商业合同风险内容识别方法及系统技术方案

技术编号：38724403 阅读：9 留言：0更新日期：2023-09-08 23:17

本发明专利技术提出了一种基于机器阅读理解的商业合同风险内容识别方法及系统，涉及自然语言处理领域。包括采用老师模型和学生模型进行预训练；初始化分类模型，对部分权重进行量化；拆分文本后对合同条文进行分割输入分类模型得到合同类型；老师模型的部分参数进行量化；将文字段落、类别信息和风险问题合并后输入到老师模型进行训练；将老师模型的输出和风险标签进行损失函数的计算，未量化的参数反向传播更新老师模型直到模型收敛；学生模型的部分参数进行量化；将文字段落、类别信息和风险问题合并后输入学生模型和老师模型进行训练；对老师模型和学生模型的中间层特征进行损失计算；解决了合同标注方式标注不全和效率较低的问题。决了合同标注方式标注不全和效率较低的问题。决了合同标注方式标注不全和效率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器阅读理解的商业合同风险内容识别方法及系统

[0001]本专利技术涉及自然语言处理领域，具体而言，涉及一种基于机器阅读理解的商业合同风险内容识别方法及系统。

技术介绍

[0002]在商业合同的审核过程中，合同条款的审核基本依赖公司法务及律师人工进行逐条判断，在面对数量庞杂和动辄上万字的商业合同时，人工审核效率低下且难免有所疏漏。另外，部分商业合同撰文并非出自法律专业人士之手，合同中存在许多非法律用语表达，也增加了审核人员的审核难度。为此，部分商业合同需要先通过对一般风险条款提前进行标注，法务人员再重点阅读关键项，以提高合同审核效率。由于合同本身的特殊性，一般采取私有化SaaS部署，私有化部署中模型大小和性能都有较高的要求。随着近几年NLP技术的应用，市面上存在通过算法实现关键风险字段自动识别工具，其主要利用NLP算法构建自动识别工具。现存的通过算法实现关键风险字段自动识别来标注风险内容，在对复杂文本进行识别时比较困难，如对于同一法律含义但不同表达的合同描述时，很难全部准确识别。因此，现有的标注方式存在标注不全，标注效率较低的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种基于机器阅读理解的商业合同风险内容识别方法，其能够解决现有标注方式存在的标注不全，标注效率较低的问题。
[0004]本专利技术的另一目的在于提供一种基于机器阅读理解的商业合同风险内容识别系统，其能够解决现有标注方式存在的标注不全，标注效率较低的问题。
[0005]本专利技术的实施例是这样实现的：r/>[0006]第一方面，本申请实施例提供一种基于机器阅读理解的商业合同风险内容识别方法，其包括如下步骤，S1、采用老师模型和学生模型进行预训练，所述老师模型和所述学生模型的输入均为文本段落和类别信息，输出均为风险问题；S2、初始化分类模型，该模型用于识别合同类型，对所述分类模型的部分权重进行量化；S3、拆分长文本得到训练数据，训练所述分类模型；S4、对合同条文进行分割，将分割后的文字输入所述分类模型得到该段文字的所述合同类型；S5、针对预训练的所述老师模型的部分参数进行量化；S6、将文字段落、类别信息和风险问题合并后输入到所述老师模型进行训练；S7、将所述老师模型的输出和风险标签进行损失函数的计算，反向传播更新所述老师模型，其中反向传播过程针对未量化的参数，直到所述老师模型收敛；S8、针对预训练的所述学生模型的部分参数进行量化；S9、将文字段落、类别信息和风险问题合并后输入所述学生模型和收敛后的所述老师模型进行训练；S10、对所述老师模型和所述学生模型的中间层特征进行损失计算，将所述学生模型的输出和风险标签进行损失函数的计算，反向传播更新所述学生模型，收敛后得到所述学生模型；其中特征层计算损失公式为MSE损失，如下：式中n
是feature map大小的数值，y
i
是老师模型中间层的feature输出，是学生模型中间层的feature输出；S11、输入一篇长文本合同后进行拆分，将拆分得到的文字段落输入所述分类模型中，得到该段文字类别；将该段文字、类别信息和定义问题合并后输入量化后的所述学生模型中，得到风险问题的位置信息；根据索引得到风险项文字信息，将所有拆分段落得到的所述风险项文字信息合并后输出。
[0007]在本专利技术的一些实施例中，上述步骤S2中，对所述分类模型的部分权重进行量化，公式如下：式中S代表量化比例，Qmin和Qmax分别代表量化值域的最小值和最大值，是量化后的数值，x是量化前数值。
[0008]在本专利技术的一些实施例中，上述步骤S3中，根据文字段落长度和滑动窗口大小拆分长文本得到训练数据；步骤S11中，根据所述文字段落长度和所述滑动窗口大小拆分所述长文本合同。
[0009]在本专利技术的一些实施例中，上述文字段落长度为512，所述滑动窗口大小为128。
[0010]在本专利技术的一些实施例中，上述步骤S3中，所述学生模型按照训练阶段多次提高参数的量化比例，直到所有参数全部量化并且模型收敛。
[0011]在本专利技术的一些实施例中，上述步骤S6中，所述老师模型按照训练阶段多次提高参数的量化比例，直到所有参数全部量化并且模型收敛。
[0012]第二方面，本申请实施例提供一种基于机器阅读理解的商业合同风险内容识别系统，其包括，模型预训练模块：采用老师模型和学生模型进行预训练，所述老师模型和所述学生模型的输入均为文本段落和类别信息，输出均为风险问题；模型初始化模块：初始化分类模型，该模型用于识别合同类型，对所述分类模型的部分权重进行量化；分类模型训练模块：拆分长文本得到训练数据，训练所述分类模型；文本分析模块：对合同条文进行分割，将分割后的文字输入所述分类模型得到该段文字的所述合同类型；老师模型量化模块：针对预训练的所述老师模型的部分参数进行量化；老师模型训练模块：将文字段落、类别信息和风险问题合并后输入到所述老师模型进行训练；老师模型收敛模块：将所述老师模型的输出和风险标签进行损失函数的计算，反向传播更新所述老师模型，其中反向传播过程针对未量化的参数，直到所述老师模型收敛；学生模型量化模块：针对预训练的所述学生模型的部分参数进行量化；学生模型训练模块：将文字段落、类别信息和风险问题合并后输入所述学生模型和收敛后的所述老师模型进行训练；学生模型收敛模块：对所述老师模型和所述学生模型的中间层特征进行损失计算，将所述学生模型的输出和风险标签进行损失函数的计算，反向传播更新所述学生模型，收敛后得到所述学生模型；其中特征层计算损失公式为MSE损失，如下：式中n是featuremap大小的数值，y
i
是老师模型中间层的feature输出，是学生模型中间层的feature输出；文本风险推理模块：输入一篇长文本合同后进行拆分，将拆分得到的文字段落输入所述分类模型中，得到该段文字类别；将该段文字、类别信息和定义问题合并后输入量化后的所述学生模型中，得到风险问题的位置信息；根据索引得到风险项文字信息，将所有拆分段落得到的所述风险项文字信息合并后输出。
[0013]相对于现有技术，本专利技术的实施例至少具有如下优点或有益效果：
[0014]针对第一方面～第二方面：本专利技术提供一种商业合同风险内容识别方法，实现在合同数据集上获得较高准确率，神经网络的推理时间和大小是限制神经网络应用场景的主要因素，基于此，本专利技术能明显有效提高模型准确率，扩大神经网络应用领域，使神经网络能够应用到更加丰富的场景中。本申请针对SaaS部署场景进行优化，应用模型参数量较大，采用老师和学生模型进行知识蒸馏训练，能够针对部署场景计算能力偏弱，专门进行量化，结合二者场景，通过量化和知识蒸馏训练有效减小量化过程中造成的精度损失。本专利技术要解决的技术问题是克服现有的技术缺陷，在商业合同中尽量完整的全面识别合同中的风险字段和条款，以提高合同审核的风险识别效率，降低合同签订风险。针对私有化部署，对模型进行量化，降低了模型大小，提高了模型计算效率。本申请解决了现有标注方式存在的标注不全以及标注效率较低的问题。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于机器阅读理解的商业合同风险内容识别方法，其特征在于，包括如下步骤，S1、采用老师模型和学生模型进行预训练，所述老师模型和所述学生模型的输入均为文本段落和类别信息，输出均为风险问题；S2、初始化分类模型，该模型用于识别合同类型，对所述分类模型的部分权重进行量化；S3、拆分长文本得到训练数据，训练所述分类模型；S4、对合同条文进行分割，将分割后的文字输入所述分类模型得到该段文字的所述合同类型；S5、针对预训练的所述老师模型的部分参数进行量化；S6、将文字段落、类别信息和风险问题合并后输入到所述老师模型进行训练；S7、将所述老师模型的输出和风险标签进行损失函数的计算，反向传播更新所述老师模型，其中反向传播过程针对未量化的参数，直到所述老师模型收敛；S8、针对预训练的所述学生模型的部分参数进行量化；S9、将文字段落、类别信息和风险问题合并后输入所述学生模型和收敛后的所述老师模型进行训练；S10、对所述老师模型和所述学生模型的中间层特征进行损失计算，将所述学生模型的输出和风险标签进行损失函数的计算，反向传播更新所述学生模型，收敛后得到所述学生模型；其中特征层计算损失公式为MSE损失，如下：式中n是feature map大小的数值，y
i
是老师模型中间层的feature输出，是学生模型中间层的feature输出；S11、输入一篇长文本合同后进行拆分，将拆分得到的文字段落输入所述分类模型中，得到该段文字类别；将该段文字、类别信息和定义问题合并后输入量化后的所述学生模型中，得到风险问题的位置信息；根据索引得到风险项文字信息，将所有拆分段落得到的所述风险项文字信息合并后输出。2.如权利要求1所述的基于机器阅读理解的商业合同风险内容识别方法，其特征在于，步骤S2中，对所述分类模型的部分权重进行量化，公式如下：式中S代表量化比例，Qmin和Qmax分别代表量化值域的最小值和最大值，是量化后的数值，x是量化前数值。3.如权利要求1所述的基于机器阅读理解的商业合同风险内容识别方法，其特征在于，步骤S3中，根据文字段落长度和滑动窗口大小拆分长文本得到训练数据；步骤S11中，根据所述文字段落长度和所述滑动窗口大小拆分所述长文本合同。4.如权利要求3所述的基于机器阅读理解的商业合同风险内容识别方法，其特征在于，所...

【专利技术属性】
技术研发人员：杨佩雯，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人