一种实现合同条款位置自动识别实现的方法技术

技术编号:21299386 阅读:28 留言:0更新日期:2019-06-12 07:52
本发明专利技术公开了一种实现合同条款位置自动识别实现的方法,该方法包括以下步骤:收集若干某一类型合同,在这些某一类型合同中标注出每个条款的起始结束位置;针对每个条款的每份数据进行分词、去停词处理,得到词袋模型,并记录下该词袋模型对应的条款序号,使用机器学习方法用词袋模型和条款序号的组合数据进行训练,得到合同中每个条款的区分模型,并保存在二进制文件中;确认新合同的合同类型,所述条款定位方法包括把新合同的每一个自然段使用区分模型计算每个条款的概率,得到新合同的概率矩阵,对每个条款,对应概率矩阵中每一列,使用其对应列的数据进行定位起始结束位置。该发明专利技术自动给合同涉及到的各个条款找到起始、结束位置。

A Method to Realize Automatic Location Recognition of Contract Terms

The invention discloses a method for realizing automatic identification of contract terms position, which includes the following steps: collecting a number of certain types of contracts, marking the starting and ending positions of each clause in these certain types of contracts; segmenting and de-terminating each data of each clause to obtain a word bag model, and recording the corresponding clause order of the word bag model. The machine learning method is used to train the combination data of the word bag model and the clause serial number to get the distinction model of each clause in the contract and save it in the binary file. The contract type of the new contract is confirmed. The method of clause positioning includes calculating the probability of each clause in each natural segment of the new contract by using the distinction model, and obtaining the probability matrix of the new contract. Each clause corresponds to each column in the probability matrix and uses the data of the corresponding column to locate the starting and ending positions. The invention automatically finds the starting and ending positions for the terms of the contract.

【技术实现步骤摘要】
一种实现合同条款位置自动识别实现的方法
本专利技术涉及计算机
,特别涉及一种实现合同条款位置自动识别实现的方法。
技术介绍
随着人工智能的不断发展,机器学习、AI不断向各个领域进行渗透。在法律界,合同审批是一个很费时而又枯燥的工作,很多种类的合同像劳动合同、买卖合同都有固定的格式,也有固定的审批规则,这种合同就存在被机器学习的方法进行审批的可能。业内目前在这方面有一些探索,很多都是基于字符串匹配的方式进行审批,但是效果并不是很好,律师们试用后发现效果不好都不再使用,我们分析和调查后发现一个重要原因,字符串匹配的规则不能跨条款使用,很多字符串模式会出现在不同的条款中,但进行审批的标准不同,使用同样的审批规则会导致最后的审批结果出现紊乱。一份标准的合同文件会包含多个组成部分,比如劳动合同里面就有劳动报酬、工作时间、合同期限等多个条款,通常这些条款会包含一个或多个段落,不同条款之间往往是独立的。有经验的法务、律师、合同专家凭经验能轻易区分出每个条款的位置。人工智能算法落地到具体项目时,会发现人凭主观意识能做好的事情计算机常常会碰到问题。在AI和法律结合时,也出现了这个问题,有一些法律条款的内容存在相似之处,而且有一些段落包含的内容信息很少,只有几个字,很容易出现误判,传统计算相似度的方法在这种情况下极容易出现误判,而且上下条款的耦合关系,也会导致一错都错,导致条款区分准确率的下滑。显然要实现智能合同审批或其他与合同+AI相关的项目,准确的定位这些条款在文档中对应内容的位置会提高处理的准确性。现有的一些技术采用标题检索的方式来确定条款的开始和结束位置。由于合同通常是保存在word中,而且格式中有各级标题,给这种标题检索的技术留了发展的空间,但是这种技术对环境的要求比较高,首先必须是word文档,其次作者必须要使用非常规范的word层级标题,最后每个标题的内容要在统一预定的文本范围内。一旦一环出了问题,那么就会影响到前后其他条款的起始终止位置。或者使用多份标准合同和待检测合同每个段落计算相似度,以获取每个段落最近似的条款,这种方法与本文所描述的类似,区别在于一个是先验概率,一个是后验概率。一个段落可能和很多条款的先验概率都高,但后验概率都很低,使用先验概率设置阈值需要对每个条款单独设置,工作量巨大,维护成本很高。如果使用简单平均转化成后验概率,即假设各个条款出现的概率相同,但这种假设也是有问题的,在很多简化合同里面,有一些条款不会出现,更为严重的是,在一些有问题的合同里面,计算先验概率的逻辑都不合预期,后面无法检测到错误。还有一种是使用先验概率和动态时间规整算法的定位方法,这种方法也是先制定多份标准合同,每份标准合同含有的条款不同,或者条款顺不同。拿到测试合同后,依次使用每个模板计算每个段落和条款的相似度,使用dtw算法(即动态时间规整)可以跳过某些条款或段落,也可以用替换的方法来查找错误的段落,最后计算出每个模板的得分,使用得分最高的模板和它对应的计算结果来生成每个条款的内容。这种方法需要大量的模板,运算量也很大,在实际使用时体验不好。
技术实现思路
为了克服现有技术的上述缺陷,本专利技术提供一种实现合同条款位置自动识别实现的方法,该方法自动给合同涉及到的各个条款找到起始、结束位置,便于后续对各个条款的文本进行各种处理。本专利技术所采用的技术方案为:一种实现合同条款位置自动识别实现的方法,该方法包括以下步骤:a.收集若干某一类型合同,在这些某一类型合同中标注出每个条款的起始结束位置;b.针对每个条款的每份数据进行分词、去停词处理,得到一个词袋模型,并记录下该词袋模型对应的条款序号,使用机器学习方法用词袋模型和条款序号的组合数据进行训练,得到某一类型合同中每个条款的区分模型,并保存在二进制文件中完成训练过程;c.根据保存在二进制文件中对应类型合同的区分模型,确认新合同的合同类型,并加载该区分模型对新合同进行条款定位;d.所述条款定位方法包括把新合同的每一个自然段使用区分模型计算属于每个条款的概率,并对这些概率做归一化处理,得到新合同的概率矩阵,对每个条款,对应概率矩阵中每一列,使用其对应列的数据进行定位起始结束位置。作为本专利技术的优选方案,所述使用区分模型计算属于每个条款的概率方法包括:采用贝叶斯概率的方法,如果新合同有N个自然段,M个条款,可以得到一个N*M的概率矩阵,该矩阵每行之和为1;接着对概率矩阵每列数据数据加做一个窗口为3的加权平均处理,权重分别为[x,1-2*x,x],即该数据本身上下两行的权重为x,其本身为1-2*x,得到一个平滑过得概率矩阵。作为本专利技术的优选方案,所述某一类型合同可以是留白合同、标准合同、定制合同、简易合同或者是一些包含少量错误的合同。作为本专利技术的优选方案,所述机器学习方法包括分类、回归方法,或者多模型融合方法等。作为本专利技术的优选方案,所述训练过程可以只使用某一类型合同中常用词对词袋模型做一次过滤,让词袋模型中只保留某一类型合同中常用词,也可以使用单字模式而不做分词处理,然后得到每个条款在若干某一类型合同中的位置,取平均值即可得到平均开始位置和平均结束位置。作为本专利技术的优选方案,所述确认新合同的方法通过文件名和合同标题。作为本专利技术的优选方案,所述X的取值小于0.2。与现有技术相比,本专利技术具有以下技术效果:本专利技术,通过使用事先标准好条款起始结束位置的大量样本合同,通过机器学习的方式建立这类合同下各条款的区分模型,在一个合同文本中,自动给涉及到的各个条款找到起始、结束位置,由于每个条款是单独计算其起始和结束为止的,解除了上下条款间的耦合,提高了系统的健壮性,而且这个方法不依赖于word文档和标题的层级结构,使用机器学习的方法建立模型,更加贴近实际使用场景,还有就是在训练是可以包含错误合同,使用贝叶斯概率也能克服这里先验转后验的问题,并通过算法里面的多个技巧,如平滑、区间预估、上下扩展、位置辅助信息多种措施确保给每个条款区分出正确的段落,因此性能更为准确和鲁棒。附图说明图1是本专利技术实施例中训练对应条款区分模块的流程示意图;图2是本专利技术实施例中得到初步的起始终止段落流程示意图;图3是图2中增加平均位置信息辅助流程的流程示意图;图4是本专利技术实施例中得到开始位置的流程示意图;图5是本专利技术实施例中得到结束位置的流程示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。1)该方法是基于机器学习而来,因此它存在一个训练的过程,在这个过程中,我们会把某一类型的合同收集上千份作为训练数据集,这些合同可以是留白合同,标准合同,定制合同,简易合同,甚至可以有一些包含少量错误的合同,让合同专家或者律师根据经验总结出此类合同能区分出的条款,在这些训练数据的每份合同中标注出每个条款的起始结束位置,每个条款也就得到上千份的训练数据;2)针对每个条款的每份训练数据,进行分词、去停词处理,可以得到一个词袋(bagofword),并记录下该词袋对应的条款序号,用(词袋,条款序号)的组合数据进行训练,可以使用分类、回归甚至多模型融合等本文档来自技高网
...

【技术保护点】
1.一种实现合同条款位置自动识别实现的方法,其特征在于:该方法包括以下步骤:a.收集若干某一类型合同,在这些某一类型合同中标注出每个条款的起始结束位置;b.针对每个条款的每份数据进行分词、去停词处理,得到一个词袋模型,并记录下该词袋模型对应的条款序号,使用机器学习方法用词袋模型和条款序号的组合数据进行训练,得到某一类型合同中每个条款的区分模型,并保存在二进制文件中完成训练过程;c.根据保存在二进制文件中对应类型合同的区分模型,确认新合同的合同类型,并加载该区分模型对新合同进行条款定位;d.所述条款定位方法包括把新合同的每一个自然段使用区分模型计算属于每个条款的概率,并对这些概率做归一化处理,得到新合同的概率矩阵,对每个条款,对应概率矩阵中每一列,使用其对应列的数据进行定位起始结束位置。

【技术特征摘要】
1.一种实现合同条款位置自动识别实现的方法,其特征在于:该方法包括以下步骤:a.收集若干某一类型合同,在这些某一类型合同中标注出每个条款的起始结束位置;b.针对每个条款的每份数据进行分词、去停词处理,得到一个词袋模型,并记录下该词袋模型对应的条款序号,使用机器学习方法用词袋模型和条款序号的组合数据进行训练,得到某一类型合同中每个条款的区分模型,并保存在二进制文件中完成训练过程;c.根据保存在二进制文件中对应类型合同的区分模型,确认新合同的合同类型,并加载该区分模型对新合同进行条款定位;d.所述条款定位方法包括把新合同的每一个自然段使用区分模型计算属于每个条款的概率,并对这些概率做归一化处理,得到新合同的概率矩阵,对每个条款,对应概率矩阵中每一列,使用其对应列的数据进行定位起始结束位置。2.根据权利要求1所述的一种实现合同条款位置自动识别实现的方法,其特征在于:所述使用区分模型计算属于每个条款的概率方法包括:采用贝叶斯概率的方法,如果新合同有N个自然段,M个条款,可以得到一个N*M的概率矩阵,该矩阵每行之和为1;接着对概率矩阵每列数据数据加做一...

【专利技术属性】
技术研发人员:尚宏金
申请(专利权)人:深圳市找大状法务科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1