一种实现合同条款位置自动识别实现的方法技术

技术编号：21299386 阅读：28 留言：0更新日期：2019-06-12 07:52

本发明专利技术公开了一种实现合同条款位置自动识别实现的方法，该方法包括以下步骤：收集若干某一类型合同，在这些某一类型合同中标注出每个条款的起始结束位置；针对每个条款的每份数据进行分词、去停词处理，得到词袋模型，并记录下该词袋模型对应的条款序号，使用机器学习方法用词袋模型和条款序号的组合数据进行训练，得到合同中每个条款的区分模型，并保存在二进制文件中；确认新合同的合同类型，所述条款定位方法包括把新合同的每一个自然段使用区分模型计算每个条款的概率，得到新合同的概率矩阵，对每个条款，对应概率矩阵中每一列，使用其对应列的数据进行定位起始结束位置。该发明专利技术自动给合同涉及到的各个条款找到起始、结束位置。

A Method to Realize Automatic Location Recognition of Contract Terms

The invention discloses a method for realizing automatic identification of contract terms position, which includes the following steps: collecting a number of certain types of contracts, marking the starting and ending positions of each clause in these certain types of contracts; segmenting and de-terminating each data of each clause to obtain a word bag model, and recording the corresponding clause order of the word bag model. The machine learning method is used to train the combination data of the word bag model and the clause serial number to get the distinction model of each clause in the contract and save it in the binary file. The contract type of the new contract is confirmed. The method of clause positioning includes calculating the probability of each clause in each natural segment of the new contract by using the distinction model, and obtaining the probability matrix of the new contract. Each clause corresponds to each column in the probability matrix and uses the data of the corresponding column to locate the starting and ending positions. The invention automatically finds the starting and ending positions for the terms of the contract.

全部详细技术资料下载

【技术实现步骤摘要】
一种实现合同条款位置自动识别实现的方法
本专利技术涉及计算机
，特别涉及一种实现合同条款位置自动识别实现的方法。
技术介绍
随着人工智能的不断发展，机器学习、AI不断向各个领域进行渗透。在法律界，合同审批是一个很费时而又枯燥的工作，很多种类的合同像劳动合同、买卖合同都有固定的格式，也有固定的审批规则，这种合同就存在被机器学习的方法进行审批的可能。业内目前在这方面有一些探索，很多都是基于字符串匹配的方式进行审批，但是效果并不是很好，律师们试用后发现效果不好都不再使用，我们分析和调查后发现一个重要原因，字符串匹配的规则不能跨条款使用，很多字符串模式会出现在不同的条款中，但进行审批的标准不同，使用同样的审批规则会导致最后的审批结果出现紊乱。一份标准的合同文件会包含多个组成部分，比如劳动合同里面就有劳动报酬、工作时间、合同期限等多个条款，通常这些条款会包含一个或多个段落，不同条款之间往往是独立的。有经验的法务、律师、合同专家凭经验能轻易区分出每个条款的位置。人工智能算法落地到具体项目时，会发现人凭主观意识能做好的事情计算机常常会碰到问题。在AI和法律结合时，也出现了这个问题，有一些法律条款的内容存在相似之处，而且有一些段落包含的内容信息很少，只有几个字，很容易出现误判，传统计算相似度的方法在这种情况下极容易出现误判，而且上下条款的耦合关系，也会导致一错都错，导致条款区分准确率的下滑。显然要实现智能合同审批或其他与合同+AI相关的项目，准确的定位这些条款在文档中对应内容的位置会提高处理的准确性。现有的一些技术采用标题检索的方式来确定条款的开始和结束位置。由于合...

【技术保护点】
1.一种实现合同条款位置自动识别实现的方法，其特征在于：该方法包括以下步骤：a.收集若干某一类型合同，在这些某一类型合同中标注出每个条款的起始结束位置；b.针对每个条款的每份数据进行分词、去停词处理，得到一个词袋模型，并记录下该词袋模型对应的条款序号，使用机器学习方法用词袋模型和条款序号的组合数据进行训练，得到某一类型合同中每个条款的区分模型，并保存在二进制文件中完成训练过程；c.根据保存在二进制文件中对应类型合同的区分模型，确认新合同的合同类型，并加载该区分模型对新合同进行条款定位；d.所述条款定位方法包括把新合同的每一个自然段使用区分模型计算属于每个条款的概率，并对这些概率做归一化处理，得到新合同的概率矩阵，对每个条款，对应概率矩阵中每一列，使用其对应列的数据进行定位起始结束位置。

【技术特征摘要】
1.一种实现合同条款位置自动识别实现的方法，其特征在于：该方法包括以下步骤：a.收集若干某一类型合同，在这些某一类型合同中标注出每个条款的起始结束位置；b.针对每个条款的每份数据进行分词、去停词处理，得到一个词袋模型，并记录下该词袋模型对应的条款序号，使用机器学习方法用词袋模型和条款序号的组合数据进行训练，得到某一类型合同中每个条款的区分模型，并保存在二进制文件中完成训练过程；c.根据保存在二进制文件中对应类型合同的区分模型，确认新合同的合同类型，并加载该区分模型对新合同进行条款定位；d.所述条款定位方法包括把新合同的每一个自然段使用区分模型计算属于每个条款的概率，并对这些概率做归一化处理，得到新合同的概率矩阵，对每个条款，对应概率矩阵中每一列，使用其对应列的数据进行定位起始结束位置。2.根据权利要求1所述的一种实现合同条款位置自动识别实现的方法，其特征在于：所述使用区分模型计算属于每个条款的概率方法包括：采用贝叶斯概率的方法，如果新合同有N个自然段，M个条款，可以得到一个N*M的概率矩阵，该矩阵每行之和为1；接着对概率矩阵每列数据数据加做一...

【专利技术属性】
技术研发人员：尚宏金，
申请(专利权)人：深圳市找大状法务科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人