基于深度学习和统计提取模型的智能合同信息提取方法技术

技术编号:23085078 阅读:81 留言:0更新日期:2020-01-11 01:09
本发明专利技术公开了一种基于深度学习和统计提取模型的智能合同信息提取方法,读取各种类型合同文档中的字段,针对不同类型信息采用不同信息提取方法将合同信息分成两种格式:已写明标准信息格式和未写明语义理解型格式;对两种信息格式分别建立提取模型,根据上述的训练模型,对文本中包含的信息,采用已写明标准信息提取模型,对信息进行提取;对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。本发明专利技术实现合同中关键信息的提取,对合同中不同类型的信息采用不同的信息提取方法,实现合同非规整数据向结构化数据转变,提高公司的精细化管理水平。

Intelligent contract information extraction method based on deep learning and statistical extraction model

【技术实现步骤摘要】
基于深度学习和统计提取模型的智能合同信息提取方法
本专利技术涉及一种合同信息提取方法,特别是一种基于深度学习和统计提取模型的智能合同信息提取方法。
技术介绍
随着企业精细化管理的不断推进,业财融合的不断深入,合同中关键信息提取日益成为了企业风险管控、收益分析和外部遵从的瓶颈。亟需一种高效快捷的合同信息提取方法,实现合同信息的结构化。中国专利公开号CN102682049公开了一种文本的候选关键词的提取方法,该方法给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,实现所有的候选关键词模板比对。但该方法只能实现文本的标引,无法实现合同中关键信息的提取。中国专利公开号CN106815213公开了一种合同履行条款自动提取方法及系统,该系统包括提取履约节点关键词和语法结构;通过相应关键词与与之对应的语法结构的组合识别出具体履约节点。通过对于合同中时间节点、时间频率和其前后相对应的履约节点关键词,将履行内容以时间顺序排列出来后在相应的履行期限进行相对应的履约提示。但该系统智能提取履约条款,对非履约信息无法实现合同信息提取。中国专利公开号CN105786966公开了一种文本结构化的方法和装置,该方法和装置通过在各个词组中,确定与至少一个字段对应的至少一个目标词组,并为至少一个目标词组和至少一个目标词组所在的列表页之间建立索引,根据目标词组对应的索引实现信息提取。但该方法智能对确定目标词组的合同信息提取,对其他无法确定目标词组的合同不能很好地适用。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度学习和统计提取模型的智能合同信息提取方法,实现对合同中不同类型的信息的提取。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于深度学习和统计提取模型的智能合同信息提取方法,其特征在于包含以下步骤:步骤一:合同读取,读取各种类型合同文档中的字段;步骤二:针对不同类型信息采用不同信息提取方法,按照合同中是否写明,将合同信息分成两种格式:已写明标准信息格式和未写明语义理解型格式;步骤三:针对已写明标准信息格式,通过训练数据,建立合同信息提取模型,训练获得包含词、前置词、后置词、分隔词,以及对应的置信度,实现信息提取;步骤四:针对未写明语义理解型格式,根据训练数据获得判断依据信息的提取模型,实现判断依据信息的定位,再通过深度学习技术,实现语义理解型格式的信息提取;步骤五:根据上述的训练模型,对文本中包含的信息,采用已写明标准信息提取模型,对信息进行提取;对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。进一步地,所述步骤一中合同类型包含pdf、doc、docx和txt。进一步地,所述步骤三具体为3.1对已写明的标准信息格式,根据训练数据,从合同全文中提取包含训练数据的句子;3.2通过分词技术,对其进行分词;3.3提取训练数据的前置词、后置词、分隔词、包含词,前置词指训练数据前第一个非标点符号、非介词的词语;后置词指训练数据后第一个标点符号或词语;分隔词指前置词与训练数据之前的标点符号或介词,如果没有可为空;包含词指训练数据包含的词语;3.4统计训练数据的前置词、后置词、分隔词、包含词,根据前置词、后置词、分隔词出现的频次,设置阈值minFreq1,对低于minFreq1的词进行剔除;对包含词,设置阈值minFreq2,剔除低于minFreq2词语或符号;3.5设置前置词、后置词、分隔词、包含词的置信度词语出现次数是每个词语在训练集上出现的频次,F是分布因子,根据前置词、后置词、分隔词的分布程度,分布越密集F越大。进一步地,所述步骤四具体为4.1根据训练数据,从合同全文中提取包含判断依据信息的句子;4.2通过分词技术,对其进行分词;4.3提取训练数据的前置词、后置词、分隔词、包含词,前置词指训练数据前第一个非标点符号、非介词的词语;后置词指训练数据后第一个标点符号或词语;分隔词指前置词与训练数据之前的标点符号或介词,如果没有可为空;包含词指训练数据包含的词语;4.4统计训练数据的前置词、后置词、分隔词、包含词,根据前置词、后置词、分隔词出现的频次,设置阈值minFreq1,对低于minFreq1的词进行剔除;对包含词,设置阈值minFreq2,剔除低于minFreq2词语或符号;4.5设置前置词、后置词、分隔词、包含词的置信度confidenceVal=词语出现次数/训练集数量*F,词语出现次数是每个词语在训练集上出现的频次,F是分布因子,根据前置词、后置词、分隔词的方差D,F=10/D,分布越密集F越大;4.6根据包含判断依据信息的句子,分词后,通过深度学习对句子进行训练,获得深度学习训练模型。进一步地,所述步骤五具体为5.1对文本中包含的信息,采用已写明标准信息提取模型,基于包含词、前置词、后置词、分隔词,以及其置信度,提取包含词、前置词、后置词、分隔词四个置信度最高的信息;5.2对未写明语义理解型的信息,先通过与文本中包含的信息提取相似的方法,提取包含判断依据信息的句子,再根据提前训练好的深度学习模型,将句子输入模型中,输出的结果即为提取信息。本专利技术与现有技术相比,具有以下优点和效果:本专利技术基于深度学习和格式化模板对合同文本进行分析,快速高效实现了合同信息的提取,释放了生产力,提升了员工的工作效率,同时为企业的精细化管理助力。附图说明图1是本专利技术的基于深度学习和统计提取模型的智能合同信息提取方法的流程图。具体实施方式下面通过实施例对本专利技术作进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。如图1所示,本专利技术的一种基于深度学习和统计提取模型的智能合同信息提取方法,包含以下步骤:步骤一:合同读取,读取各种类型合同文档中的字段,如pdf、doc、docx和txt等。步骤二:针对不同类型信息采用不同信息提取方法。按照合同中是否写明,将合同信息分成两种格式:1、已写明标准信息格式,2、未写明语义理解型格式。步骤三:针对第一种已写明标准信息格式,通过训练数据,建立合同信息提取模型,训练获得包含词、前置词、后置词、分隔词,以及对应的置信度,实现信息提取。具体过程为:3.1对已写明的标准信息格式,根据训练数据,从合同全文中提取包含训练数据的句子;3.2通过分词技术,对其进行分词;3.3提取训练数据的前置词、后置词、分隔词、包含词,前置词指训练数据前第一个非标点符号、非介词的词语;后置词指训练数据后第一个标点符号或词语;分隔词指前置词与训练数据之前的标点符号或介词,如果没有可为空;包含词指训练数据包含的词语;3.4统计训练数据的前置词、后置词、分隔词、包含词,根据前置词、后置词、分隔词出现的频次,设置阈值minFr本文档来自技高网
...

【技术保护点】
1.一种基于深度学习和统计提取模型的智能合同信息提取方法,其特征在于包含以下步骤:/n步骤一:合同读取,读取各种类型合同文档中的字段;/n步骤二:针对不同类型信息采用不同信息提取方法,按照合同中是否写明,将合同信息分成两种格式:已写明标准信息格式和未写明语义理解型格式;/n步骤三:针对已写明标准信息格式,通过训练数据,建立合同信息提取模型,训练获得包含词、前置词、后置词、分隔词,以及对应的置信度,实现信息提取;/n步骤四:针对未写明语义理解型格式,根据训练数据获得判断依据信息的提取模型,实现判断依据信息的定位,再通过深度学习技术,实现语义理解型格式的信息提取;/n步骤五:根据上述的训练模型,对文本中包含的信息,采用已写明标准信息提取模型,对信息进行提取;对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。/n

【技术特征摘要】
1.一种基于深度学习和统计提取模型的智能合同信息提取方法,其特征在于包含以下步骤:
步骤一:合同读取,读取各种类型合同文档中的字段;
步骤二:针对不同类型信息采用不同信息提取方法,按照合同中是否写明,将合同信息分成两种格式:已写明标准信息格式和未写明语义理解型格式;
步骤三:针对已写明标准信息格式,通过训练数据,建立合同信息提取模型,训练获得包含词、前置词、后置词、分隔词,以及对应的置信度,实现信息提取;
步骤四:针对未写明语义理解型格式,根据训练数据获得判断依据信息的提取模型,实现判断依据信息的定位,再通过深度学习技术,实现语义理解型格式的信息提取;
步骤五:根据上述的训练模型,对文本中包含的信息,采用已写明标准信息提取模型,对信息进行提取;对未写明语义理解型采用先信息定位再通过深度学习模型提取信息。


2.按照权利要求1所述的一种基于深度学习和统计提取模型的智能合同信息提取方法,其特征在于:所述步骤一中合同类型包含pdf、doc、docx和txt。


3.按照权利要求1所述的一种基于深度学习和统计提取模型的智能合同信息提取方法,其特征在于:所述步骤三具体为
3.1对已写明的标准信息格式,根据训练数据,从合同全文中提取包含训练数据的句子;
3.2通过分词技术,对其进行分词;
3.3提取训练数据的前置词、后置词、分隔词、包含词,前置词指训练数据前第一个非标点符号、非介词的词语;后置词指训练数据后第一个标点符号或词语;分隔词指前置词与训练数据之前的标点符号或介词,如果没有可为空;包含词指训练数据包含的词语;
3.4统计训练数据的前置词、后置词、分隔词、包含词,根据前置词、后置词、分隔词出现的频次,设置阈值minFreq1,对低于minFreq1的词进行剔除;对包含词,设置阈值minFreq2,剔除低于minFreq2词语或符号;
3.5设置前置词、后...

【专利技术属性】
技术研发人员:于志文刘大伟何晓晴周玲蒋路
申请(专利权)人:江苏鸿信系统集成有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1