一种合同文本智能清洗系统技术方案

技术编号：21299383 阅读：19 留言：0更新日期：2019-06-12 07:52

本发明专利技术公开了一种合同文本智能清洗系统，该方法包括以下步骤：首先训练得到合同词向量模型和训练得到通用词向量模型，然后对一份新的合同文本进行处理，使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注。本发明专利技术对合同文本进行解读，识别语义，将非合同用语和疑似定制合同语句重点标出，可以协助法律工作者高效快速的完成合同的校对，审批等工作。

An Intelligent Cleaning System for Contract Text

The invention discloses an intelligent contract text cleaning system, which includes the following steps: first, the contract word vector model and the general word vector model are trained, then a new contract text is processed, and the contract text is analyzed, cleaned and labeled using the contract word vector model and the general word vector model. The invention interprets the contract text, identifies semantics, and highlights non-contract terms and suspected customized contract statements, which can assist legal workers to efficiently and quickly complete contract proofreading, approval and other work.

全部详细技术资料下载

【技术实现步骤摘要】
一种合同文本智能清洗系统
本专利技术涉及人工智能
，特别涉及一种合同文本智能清洗系统。
技术介绍
众所周知，合同的审批工作是非常单调和枯燥的，很多合同的撰写过程中为了避免歧义，经常把文字写的非常严谨，过于严谨会产生很多啰嗦的语句。法务工作人员进行合同审批时，需要面对大量此种格式的文字，但又不得不看，而真正有价值的数据(为某项业务定制的语句或者在标准合同中填写的数据)不多，这里面就有大量的时间和精力的浪费。计算机程序适合处理有固定逻辑的流程式工作，人工智能和大数据近几年的飞速发展，让程序处理一些模糊事件变得越来越可能，目前国内市场上对智能合同审批还处于基于规则的阶段，这些基于规则的方案可以处理合同常见的正确写法和常见的错误写法，但是对于不常见的合同写法如罕见错误或者定制内容则束手无策。现有技术比较常用的是使用分类的方法进行文本过滤的，其思想是把所有合同文本作为正样本，其他的新闻、小说、杂志、随机文本作为负样本，把所有数据进行分词后，形成段落级的词袋数据，使用回归或者分类的方法进行建模。当新的测试数据即新合同需要分析的时候，也得到每个段落的词袋数据，使用上述模型进行分类或回归，类似于垃圾邮件的过滤，但是这种方法有一个比较大的缺陷，就是把一个正常的语句分词后，打乱词的顺序重新排列后，得到的词袋是一样的，但此时已经变成了乱序的垃圾文本，此模型就无能为力。
技术实现思路
为了克服现有技术的上述缺陷，本专利技术提供一种合同文本智能清洗系统，该方法对合同文本进行解读，识别语义，将非合同用语和疑似定制合同语句重点标出，可以协助法律工作者高效快速的完成合同的校对，审批等工...

【技术保护点】
1.一种合同文本智能清洗系统，其特征在于：该方法包括以下步骤：a)训练得到合同词向量模型；b)训练得到通用词向量模型；c)对一份新的合同文本进行处理，使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注，该方法包括以下步骤：(i)把合同文本全文转成编码；(ii)对合同的每段文本进行清洗，包括首先把整段合同文本使用句号”。”、问号”？”、叹号”！”进行分解，分解成多个单独的句子，然后使用通用词向量模型计算每个句子的通用生成概率，如果概率小于一定阈值，则认为该句语句不是正常语句，里面或者有错别字，或者就是一堆乱序的文字，该句会被提示“需要注意文字上的错误”，最后使用合同词向量模型计算每个句子的合同生产概率，如果概率小于一定阈值，则认为该句语句不是常用合同用语，里面或者填空的数据内容，或者就是定制的合同条款，该句会被提示“定制条款或者具体内容需要律师详细审核”；(iii)使用通用词向量模型计算整个自然段的通用生成概率，即为该自然段里面所有语句最小的三个合同生成概率的均值，如果自然段的通用生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的，该段内部语句级别的提示都可以清除...

【技术特征摘要】
1.一种合同文本智能清洗系统，其特征在于：该方法包括以下步骤：a)训练得到合同词向量模型；b)训练得到通用词向量模型；c)对一份新的合同文本进行处理，使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注，该方法包括以下步骤：(i)把合同文本全文转成编码；(ii)对合同的每段文本进行清洗，包括首先把整段合同文本使用句号”。”、问号”？”、叹号”！”进行分解，分解成多个单独的句子，然后使用通用词向量模型计算每个句子的通用生成概率，如果概率小于一定阈值，则认为该句语句不是正常语句，里面或者有错别字，或者就是一堆乱序的文字，该句会被提示“需要注意文字上的错误”，最后使用合同词向量模型计算每个句子的合同生产概率，如果概率小于一定阈值，则认为该句语句不是常用合同用语，里面或者填空的数据内容，或者就是定制的合同条款，该句会被提示“定制条款或者具体内容需要律师详细审核”；(iii)使用通用词向量模型计算整个自然段的通用生成概率，即为该自然段里面所有语句最小的三个合同生成概率的均值，如果自然段的...

【专利技术属性】
技术研发人员：尚宏金，
申请(专利权)人：深圳市找大状法务科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人