基于深度学习和统计提取模型的智能合同信息提取方法技术

技术编号：23085078 阅读：81 留言：0更新日期：2020-01-11 01:09

本发明专利技术公开了一种基于深度学习和统计提取模型的智能合同信息提取方法，读取各种类型合同文档中的字段，针对不同类型信息采用不同信息提取方法将合同信息分成两种格式：已写明标准信息格式和未写明语义理解型格式；对两种信息格式分别建立提取模型，根据上述的训练模型，对文本中包含的信息，采用已写明标准信息提取模型，对信息进行提取；对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。本发明专利技术实现合同中关键信息的提取，对合同中不同类型的信息采用不同的信息提取方法，实现合同非规整数据向结构化数据转变，提高公司的精细化管理水平。

Intelligent contract information extraction method based on deep learning and statistical extraction model

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习和统计提取模型的智能合同信息提取方法
本专利技术涉及一种合同信息提取方法，特别是一种基于深度学习和统计提取模型的智能合同信息提取方法。
技术介绍
随着企业精细化管理的不断推进，业财融合的不断深入，合同中关键信息提取日益成为了企业风险管控、收益分析和外部遵从的瓶颈。亟需一种高效快捷的合同信息提取方法，实现合同信息的结构化。中国专利公开号CN102682049公开了一种文本的候选关键词的提取方法，该方法给每个自然词确定对应的词项，并存储到自然词数据库中，设置多个候选关键词模板，存入模板库，根据自然词数据库对文本进行词法分析，获得文本每个自然词及其对应的词项，实现所有的候选关键词模板比对。但该方法只能实现文本的标引，无法实现合同中关键信息的提取。中国专利公开号CN106815213公开了一种合同履行条款自动提取方法及系统，该系统包括提取履约节点关键词和语法结构；通过相应关键词与与之对应的语法结构的组合识别出具体履约节点。通过对于合同中时间节点、时间频率和其前后相对应的履约节点关键词，将履行内容以时间顺序排列出来后在相应的履行期限进行相对应的履约提示。但该系统智能提取履约条款，对非履约信息无法实现合同信息提取。中国专利公开号CN105786966公开了一种文本结构化的方法和装置，该方法和装置通过在各个词组中，确定与至少一个字段对应的至少一个目标词组，并为至少一个目标词组和至少一个目标词组所在的列表页之间建立索引，根据目标词组对应的索引实现信息提取。但该方法智能对确定目标词组的合同信息提取，...

【技术保护点】
1.一种基于深度学习和统计提取模型的智能合同信息提取方法，其特征在于包含以下步骤：/n步骤一：合同读取，读取各种类型合同文档中的字段；/n步骤二：针对不同类型信息采用不同信息提取方法，按照合同中是否写明，将合同信息分成两种格式：已写明标准信息格式和未写明语义理解型格式；/n步骤三：针对已写明标准信息格式，通过训练数据，建立合同信息提取模型，训练获得包含词、前置词、后置词、分隔词，以及对应的置信度，实现信息提取；/n步骤四：针对未写明语义理解型格式，根据训练数据获得判断依据信息的提取模型，实现判断依据信息的定位，再通过深度学习技术，实现语义理解型格式的信息提取；/n步骤五：根据上述的训练模型，对文本中包含的信息，采用已写明标准信息提取模型，对信息进行提取；对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。/n

【技术特征摘要】
1.一种基于深度学习和统计提取模型的智能合同信息提取方法，其特征在于包含以下步骤：
步骤一：合同读取，读取各种类型合同文档中的字段；
步骤二：针对不同类型信息采用不同信息提取方法，按照合同中是否写明，将合同信息分成两种格式：已写明标准信息格式和未写明语义理解型格式；
步骤三：针对已写明标准信息格式，通过训练数据，建立合同信息提取模型，训练获得包含词、前置词、后置词、分隔词，以及对应的置信度，实现信息提取；
步骤四：针对未写明语义理解型格式，根据训练数据获得判断依据信息的提取模型，实现判断依据信息的定位，再通过深度学习技术，实现语义理解型格式的信息提取；
步骤五：根据上述的训练模型，对文本中包含的信息，采用已写明标准信息提取模型，对信息进行提取；对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。

2.按照权利要求1所述的一种基于深度学习和统计提取模型的智能合同信息提取方法，其特征在于：所述步骤一中合同类型包含pdf、doc、docx和txt。

3.按照权利要求1所述的一种基于深度学习和统计提取模型的智能合同信息提取方法，其特征在于：所述步骤三具体为
3.1对已写明的标准信息格式，根据训练数据，从合同全文中提取包含训练数据的句子；
3.2通过分词技术，对其进行分词；
3.3提取训练数据的前置词、后置词、分隔词、包含词，前置词指训练数据前第一个非标点符号、非介词的词语；后置词指训练数据后第一个标点符号或词语；分隔词指前置词与训练数据之前的标点符号或介词，如果没有可为空；包含词指训练数据包含的词语；
3.4统计训练数据的前置词、后置词、分隔词、包含词，根据前置词、后置词、分隔词出现的频次，设置阈值minFreq1，对低于minFreq1的词进行剔除；对包含词，设置阈值minFreq2，剔除低于minFreq2词语或符号；
3.5设置前置词、后...

【专利技术属性】
技术研发人员：于志文，刘大伟，何晓晴，周玲，蒋路，
申请(专利权)人：江苏鸿信系统集成有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人