一种基于样本数据增强的篇章级合同抽取方法及系统技术方案

技术编号:35817246 阅读:22 留言:0更新日期:2022-12-03 13:41
本申请提供一种基于样本数据增强的篇章级合同抽取方法及系统,包括:获取待处理合同,并判断所述待处理合同的文本类型;然后基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式;再按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取,并根据章节分级标志使用正则匹配进行划分,将划分后的章节信息分别加在所属的句子开头;再然后根据要素数据类型,对划分后的章节信息进行数据加强;最后采用预设网络模型从完成数据增强后的章节信息进行信息抽取,并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正,输出最终结果。本申请对于核心字段可达到92.3%的准确率,对于非核心字段可以实现75.8%的准确率。现75.8%的准确率。现75.8%的准确率。

【技术实现步骤摘要】
一种基于样本数据增强的篇章级合同抽取方法及系统


[0001]本申请涉及神经网络
,特别是涉及一种基于样本数据增强的篇章级合同抽取方法及系统。

技术介绍

[0002]在实际需求中,合同文件存在类型多样、格式不一,甲乙双方基础信息错位、要素抽取字段多、粒度更细、手写体、章印等问题,导致现有的合同要素抽取产品平均准确在80%左右,合同编号、地址等字段仅有70%左右的准确率。因此,需要提高对合同要素的识别准确率。而现有的合同要素抽取模型主要存在以下问题:(1)合同类型多,格式复杂多样,现有的模型泛化能力不强。(2)合同甲乙双方基本信息错位,模型抽取也存在错位问题,无纠正能力。(3)合同要素抽取字段过多,粒度也更细,某些字段数据占比较少,模型抽取不到或抽取错误。(4)合同章印部分的字段信息,受OCR影响,模型抽取不全或抽取错误。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于样本数据增强的篇章级合同抽取方法及系统,用于解决现有的合同要素抽取模型存在的问题。
[0004]为实现上述目的及其他相关目的,本申请提供一种基于样本数据增强的篇章级合同抽取方法,所述方法包括以下步骤:
[0005]获取待处理合同,并判断所述待处理合同的文本类型;
[0006]基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式;
[0007]按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取,并根据章节分级标志使用正则匹配进行划分,将划分后的章节信息分别加在所属的句子开头;
[0008]根据要素数据类型,对划分后的章节信息进行数据加强;
[0009]采用预设网络模型从完成数据增强后的章节信息进行信息抽取,并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正,输出最终结果。
[0010]可选地,所述待处理合同的文本类型包括:图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD文本类型。
[0011]可选地,对划分后的章节信息进行数据加强的过程包括:对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除,以对划分后的章节信息进行数据扩充。
[0012]可选地,采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括:
[0013]对合同文本信息每个字符或词增加起始位置和终止位置;
[0014]基于合同文本信息进行建模,得到批次大小*文本长度的二维矩阵,并将字或词组成的新短语结构进行扁平化处理,通过预训练模型得到三维矩阵;
[0015]根据自注意力机制实现字和词之间的信息交互,得到合同文本的表征;
[0016]将得到的表征输入到条件随机场中,抽取出合同文本中的各个要素字段信息。
[0017]可选地,抽取的要素字段信息包括以下至少之一:合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。
[0018]本申请还提供一种基于样本数据增强的篇章级合同抽取系统,所述系统包括有:
[0019]数据采集模块,用于获取待处理合同,并判断所述待处理合同的文本类型;
[0020]抽取方式模块,用于根据所述待处理合同的文本类型确定所述待处理合同的文本抽取方式;
[0021]划分模块,用于按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取,并根据章节分级标志使用正则匹配进行划分,将划分后的章节信息分别加在所属的句子开头;
[0022]数据加强模块,用于根据要素数据类型,对划分后的章节信息进行数据加强;
[0023]信息抽取模块,用于采用预设网络模型从完成数据增强后的章节信息进行信息抽取,并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正,输出最终结果。
[0024]可选地,所述待处理合同的文本类型包括:图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD文本类型。
[0025]可选地,对划分后的章节信息进行数据加强的过程包括:对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除,以对划分后的章节信息进行数据扩充。
[0026]可选地,采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括:
[0027]对合同文本信息每个字符或词增加起始位置和终止位置;
[0028]基于合同文本信息进行建模,得到批次大小*文本长度的二维矩阵,并将字或词组成的新短语结构进行扁平化处理,通过预训练模型得到三维矩阵;
[0029]根据自注意力机制实现字和词之间的信息交互,得到合同文本的表征;
[0030]将得到的表征输入到条件随机场中,抽取出合同文本中的各个要素字段信息。
[0031]可选地,抽取的要素字段信息包括以下至少之一:合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。
[0032]如上所述,本申请提供一种基于样本数据增强的篇章级合同抽取方法及系统,具有以下有益效果:
[0033]本申请首先获取待处理合同,并判断所述待处理合同的文本类型;然后基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式;再按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取,并根据章节分级标志使用正则匹配进行划分,将划分后的章节信息分别加在所属的句子开头;再然后根据要素数据类型,对划分后的章节信息进行数据加强;最后采用预设网络模型从完成数据增强后的章节信息进行信息抽取,并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正,输出最终结果。通过本申请记载的技术方案,本申请可以从合同中抽取出合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人以及乙方法人等要素信息,而且对于合同名称、甲方
账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间和截止日期这8个核心字段可达到92.3%的准确率,对于甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人等25个字段可以实现75.8%的准确率。
附图说明
[0034]图1为一实施例提供的基于样本数据增强的篇章级合同抽取方法的流程示意图;
[0035]图2为一实施例提供的预设网络模型的结构示意图;
[0036]图3为一实施例提供的基于样本数据增强的篇章级合同抽取系统的硬件结构示意图。
具体实施方式
[0037]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于样本数据增强的篇章级合同抽取方法,其特征在于,所述方法包括以下步骤:获取待处理合同,并判断所述待处理合同的文本类型;基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式;按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取,并根据章节分级标志使用正则匹配进行划分,将划分后的章节信息分别加在所属的句子开头;根据要素数据类型,对划分后的章节信息进行数据加强;采用预设网络模型从完成数据增强后的章节信息进行信息抽取,并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正,输出最终结果。2.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法,其特征在于,所述待处理合同的文本类型包括:图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD文本类型。3.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法,其特征在于,对划分后的章节信息进行数据加强的过程包括:对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除,以对划分后的章节信息进行数据扩充。4.根据权利要求1至3中任一所述的基于样本数据增强的篇章级合同抽取方法,其特征在于,采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括:对合同文本信息每个字符或词增加起始位置和终止位置;基于合同文本信息进行建模,得到批次大小*文本长度的二维矩阵,并将字或词组成的新短语结构进行扁平化处理,通过预训练模型得到三维矩阵;根据自注意力机制实现字和词之间的信息交互,得到合同文本的表征;将得到的表征输入到条件随机场中,抽取出合同文本中的各个要素字段信息。5.根据权利要求4所述的基于样本数据增强的篇章级合同抽取方法,其特征在于,抽取的要素字段信息包括以下至少之一:合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。6.一种基于样本数据增强的篇章级合同抽取系统,其特征在...

【专利技术属性】
技术研发人员:王磊汪志成石赟张顺晨周纬杨程旺
申请(专利权)人:上海欧冶金融信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1