一种基于深度神经网络的合同文本分析方法及系统技术方案

技术编号:26762740 阅读:26 留言:0更新日期:2020-12-18 23:15
本发明专利技术提出了一种基于深度神经网络的合同文本分析方法及系统。合同文本分析系统,包括:文本管理系统,用于存储和管理电力行业历史数据文本;训练系统,用于使用电力行业历史数据文本进行BERT训练,得到训练好的BERT电力行业语意字典库模型;标注任务管理系统,用于获取待处理文档,通过图片文字AI识别解析该待处理文档,并从该待处理文档中提取分词;特征向量获取模块,用于将提取分词处理后的待处理文档输入BERT电力行业语意字典库模型,获得待处理文档的特征向量;数据分析模块,用于对待处理文档的特征向量进行数据分析。本发明专利技术的基于深度神经网络的合同文本分析方法及系统设计新颖,实用性强。

【技术实现步骤摘要】
一种基于深度神经网络的合同文本分析方法及系统
本专利技术涉及信息处理领域,尤其涉及一种基于深度神经网络的合同文本分析方法及系统。
技术介绍
合同非结构化数据的处理在现代信息系统中一直以人工录入为主,在大型合同文档中往往需要处理的信息量巨大;其中包括有招标文件、技术协议、补充协议、合同文档等等,人工处理存在效率低、漏查、错误提取等方面的问题。
技术实现思路
本专利技术的目的是针对上述技术问题,提出一种基于深度神经网络的合同文本分析方法及系统。本专利技术解决其技术问题的技术方案是:本专利技术提出了一种基于深度神经网络的合同文本分析方法,包括以下步骤:步骤S1、使用电力行业历史数据文本进行BERT训练,得到训练好的BERT电力行业语意字典库模型;步骤S2、获取待处理文档,通过图片文字AI识别解析该待处理文档,并从该待处理文档中提取分词;步骤S3、将提取分词处理后的待处理文档输入BERT电力行业语意字典库模型,获得待处理文档的特征向量;步骤S4、对待处理文档的特征向量进行数据分析。...

【技术保护点】
1.一种基于深度神经网络的合同文本分析方法,其特征在于,包括以下步骤:/n步骤S1、使用电力行业历史数据文本进行BERT训练,得到训练好的BERT电力行业语意字典库模型;/n步骤S2、获取待处理文档,通过图片文字AI识别解析该待处理文档,并从该待处理文档中提取分词;/n步骤S3、将提取分词处理后的待处理文档输入BERT电力行业语意字典库模型,获得待处理文档的特征向量;/n步骤S4、对待处理文档的特征向量进行数据分析。/n

【技术特征摘要】
1.一种基于深度神经网络的合同文本分析方法,其特征在于,包括以下步骤:
步骤S1、使用电力行业历史数据文本进行BERT训练,得到训练好的BERT电力行业语意字典库模型;
步骤S2、获取待处理文档,通过图片文字AI识别解析该待处理文档,并从该待处理文档中提取分词;
步骤S3、将提取分词处理后的待处理文档输入BERT电力行业语意字典库模型,获得待处理文档的特征向量;
步骤S4、对待处理文档的特征向量进行数据分析。


2.根据权利要求1所述的合同文本分析方法,其特征在于,在步骤S1中,使用电力行业历史数据文本进行BERT训练包括句子中词之间的关系训练和句子之间的关系训练。


3.根据权利要求1所述的合同文本分析方法,其特征在于,步骤S4包括:根据待处理文档的特征向量使用余弦相似度算法,从电力行业历史数据文本找出相似匹配文本;
步骤S4还包括:
步骤S41、从相似匹配文本中提取分词,然后将提取分词处理后的相似匹配文本输入BERT电力行业语意字典库模型,获得相似匹配文本的特征向量;
步骤S42、基于待处理文档的特征向量以及相似匹配文本的特征向量进行统计分析。


4.根据权利要求3所述的合同文本分析方法,其特征在于,步骤S4还包括:
对比待处理文档的特征向量以及相似匹配文本的特征向量,找出不同点并标示出来。


5.一种基于深度神经网络的合同文本分析系统,其特征在于,包括:
文本管理系统(100),用...

【专利技术属性】
技术研发人员:刘绍光王忠军李寿荣赵敏全胡定波陈旭文刘志钦
申请(专利权)人:南方电网深圳数字电网研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1