一种合同文本智能清洗系统技术方案

技术编号:21299383 阅读:19 留言:0更新日期:2019-06-12 07:52
本发明专利技术公开了一种合同文本智能清洗系统,该方法包括以下步骤:首先训练得到合同词向量模型和训练得到通用词向量模型,然后对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注。本发明专利技术对合同文本进行解读,识别语义,将非合同用语和疑似定制合同语句重点标出,可以协助法律工作者高效快速的完成合同的校对,审批等工作。

An Intelligent Cleaning System for Contract Text

The invention discloses an intelligent contract text cleaning system, which includes the following steps: first, the contract word vector model and the general word vector model are trained, then a new contract text is processed, and the contract text is analyzed, cleaned and labeled using the contract word vector model and the general word vector model. The invention interprets the contract text, identifies semantics, and highlights non-contract terms and suspected customized contract statements, which can assist legal workers to efficiently and quickly complete contract proofreading, approval and other work.

【技术实现步骤摘要】
一种合同文本智能清洗系统
本专利技术涉及人工智能
,特别涉及一种合同文本智能清洗系统。
技术介绍
众所周知,合同的审批工作是非常单调和枯燥的,很多合同的撰写过程中为了避免歧义,经常把文字写的非常严谨,过于严谨会产生很多啰嗦的语句。法务工作人员进行合同审批时,需要面对大量此种格式的文字,但又不得不看,而真正有价值的数据(为某项业务定制的语句或者在标准合同中填写的数据)不多,这里面就有大量的时间和精力的浪费。计算机程序适合处理有固定逻辑的流程式工作,人工智能和大数据近几年的飞速发展,让程序处理一些模糊事件变得越来越可能,目前国内市场上对智能合同审批还处于基于规则的阶段,这些基于规则的方案可以处理合同常见的正确写法和常见的错误写法,但是对于不常见的合同写法如罕见错误或者定制内容则束手无策。现有技术比较常用的是使用分类的方法进行文本过滤的,其思想是把所有合同文本作为正样本,其他的新闻、小说、杂志、随机文本作为负样本,把所有数据进行分词后,形成段落级的词袋数据,使用回归或者分类的方法进行建模。当新的测试数据即新合同需要分析的时候,也得到每个段落的词袋数据,使用上述模型进行分类或回归,类似于垃圾邮件的过滤,但是这种方法有一个比较大的缺陷,就是把一个正常的语句分词后,打乱词的顺序重新排列后,得到的词袋是一样的,但此时已经变成了乱序的垃圾文本,此模型就无能为力。
技术实现思路
为了克服现有技术的上述缺陷,本专利技术提供一种合同文本智能清洗系统,该方法对合同文本进行解读,识别语义,将非合同用语和疑似定制合同语句重点标出,可以协助法律工作者高效快速的完成合同的校对,审批等工作。本专利技术所采用的技术方案为:一种合同文本智能清洗系统,该方法包括以下步骤:a)训练得到合同词向量模型;b)训练得到通用词向量模型;c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:(i)把合同文本全文转成编码;(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值,则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,最后使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值,则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的通用生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除;(iv)使用合同词向量模型计算整个自然段的合同生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的合同生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除。作为本专利技术的优选方案,所述训练得到合同词向量模型的步骤包括:首先获取大量的合同文本数据和同等规模数量的新闻文本数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。作为本专利技术的优选方案,所述训练得到通用词向量模型的步骤包括:首先获取大量的新闻文本、小说、杂志数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。作为本专利技术的优选方案,所述编码采用GB2312编码。与现有技术相比,本专利技术具有以下技术效果:本专利技术,一种针对合同文本进行分析,清洗的人工智能处理系统,本系统需要大量合同数据使用深度学习的方法训练合同词向量模型和通用词向量模型,然后对合同文本进行解读,识别语义,将非合同用语和疑似定制合同语句重点标出,对于后续律师人工审核可以很大的提升效率,或者帮助自动化审核提供正确率和用户体验。附图说明图1是本专利技术一种合同文本智能清洗系统中训练通用词向量模型的流程示意图;图2是本专利技术一种合同文本智能清洗系统中训练合同词向量模型的流程示意图;图3是本专利技术一种合同文本智能清洗系统中合同段落逐句清洗的流程示意图;图4是本专利技术一种合同文本智能清洗系统中段落级清洗的流程示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。一种合同文本智能清洗系统,其特征在于:该方法包括以下步骤:a)训练得到合同词向量模型:首先获取大量的合同文本数据和同等规模数量的新闻文本数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。b)训练得到通用词向量模型:首先获取大量的新闻文本、小说、杂志数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:(i)把合同文本全文转成编码;(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值(通常比较小,如0.1),则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,对于没有问题的语句,进行下面的判断,使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值(通常比较小,如0.3),则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的通用生成概率低于某一个阈值(通常比较小,如0.2)则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除;(iv)使用合同词向量模型计算整个自然段的合同生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的合同生成概率低于某一个阈值(通常比较小,如0.5)则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除。作为本专利技术的优选方案,所述编码采用GB2312编码。上述计算生成概率的采用深度学习模型,一般为N-gram模型、Word2vec模型和Elmo模型。N-gram模型:n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型,习惯上,1-gram叫unigram,2-gr本文档来自技高网...

【技术保护点】
1.一种合同文本智能清洗系统,其特征在于:该方法包括以下步骤:a)训练得到合同词向量模型;b)训练得到通用词向量模型;c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:(i)把合同文本全文转成编码;(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值,则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,最后使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值,则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的通用生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除;(iv)使用合同词向量模型计算整个自然段的合同生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的合同生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除。...

【技术特征摘要】
1.一种合同文本智能清洗系统,其特征在于:该方法包括以下步骤:a)训练得到合同词向量模型;b)训练得到通用词向量模型;c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:(i)把合同文本全文转成编码;(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值,则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,最后使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值,则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的...

【专利技术属性】
技术研发人员:尚宏金
申请(专利权)人:深圳市找大状法务科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1