用于合同类文件的自动内容解析与信息评测方法及系统技术方案

技术编号:33623707 阅读:31 留言:0更新日期:2022-06-02 00:50
本发明专利技术属于人工智能技术领域,具体涉及用于合同类文件的自动内容解析与信息评测方法及系统。方法包括S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;S3,利用评分模型对解析出的关键信息进行信息风险评测;S4,将信息风险评测结果在可视化界面端进行展示。系统包括合同文本提取模块、合同文本解析模块、合同文本评测模块和可视化展示模块。本发明专利技术具有消耗资源少,能自动高效抽取关键信息,且能够处理各类格式文档的特点。够处理各类格式文档的特点。够处理各类格式文档的特点。

【技术实现步骤摘要】
用于合同类文件的自动内容解析与信息评测方法及系统


[0001]本专利技术属于人工智能
,具体涉及用于合同类文件的自动内容解析与信息评测方法及系统。

技术介绍

[0002]合同文本是一种典型的非结构化数据,通常需要人工将结构化信息录入到合同管理系统中,例如:“合同名称”、“合同甲方乙方”、“合同签订日期”、“合同金额”、“合同支付方式”、“争议解决方式”等。最初是通过人工进行信息抽取,后续转变为基于规则或者关键词的信息提取。现如今通过人工智能领域的自然语言处理技术手段,能够将上述所需关键信息智能抽取,不仅节省了人工的成本,还降低了因操作失误可能带来的风险。结构化的信息也对后续的业务规则应用、数据分析带来了极大的便利性。
[0003]目前合同解析一般有以下几种方法:1.针对大量合同,人工将合同拆解,并且将关键信息归纳到数据库中,该类方法目前已较少使用;2.正则表达式或SQL语言(Structured Query Language,结构化查询语言)结合句法依赖及语法规则将合同中固定表达拆解,提取出关键信息。专利《技术合同判定方法、电子装本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.用于合同类文件的自动内容解析与信息评测方法,其特征在于,包括如下步骤;S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;S3,利用评分模型对解析出的关键信息进行信息风险评测;S4,将信息风险评测结果在可视化界面端进行展示。2.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S1包括如下步骤;S11,若合同文件格式为图片,则利用OCR技术将文本提取出来;S12,若合同文件格式为PDF,则使用PDF解析工具包抓取合同文件中的文本;S13,若合同文件格式为docx,则使用WORD解析工具包提取出合同文件中的文本;S14,若合同文件格式为doc,则使用转换工具将合同文件转变为docx文件再进行步骤S13过程的处理。3.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,所述合同类Bert模型的构建过程包括如下步骤:采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。4.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S2包括如下步骤:S21,设定“句号”为提前切分符,同时将文本按长度500进行拆分;S22,将拆分后的文本输入合同类Bert模型,获得文本信息的词向量、句向量和位置向量;S23,使用自编码器与条件随机场对词向量、句向量和位置向量进行关键信息解析,并对解析出的关键信息进行校验。5.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,所述评分模型的构建过程如下:使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信...

【专利技术属性】
技术研发人员:严鹏孙林君
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1