一种基于样本数据增强的篇章级合同抽取方法及系统技术方案

技术编号：35817246 阅读：38 留言：0更新日期：2022-12-03 13:41

本申请提供一种基于样本数据增强的篇章级合同抽取方法及系统，包括：获取待处理合同，并判断所述待处理合同的文本类型；然后基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式；再按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取，并根据章节分级标志使用正则匹配进行划分，将划分后的章节信息分别加在所属的句子开头；再然后根据要素数据类型，对划分后的章节信息进行数据加强；最后采用预设网络模型从完成数据增强后的章节信息进行信息抽取，并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正，输出最终结果。本申请对于核心字段可达到92.3％的准确率，对于非核心字段可以实现75.8％的准确率。现75.8％的准确率。现75.8％的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于样本数据增强的篇章级合同抽取方法及系统

[0001]本申请涉及神经网络
，特别是涉及一种基于样本数据增强的篇章级合同抽取方法及系统。

技术介绍

[0002]在实际需求中，合同文件存在类型多样、格式不一，甲乙双方基础信息错位、要素抽取字段多、粒度更细、手写体、章印等问题，导致现有的合同要素抽取产品平均准确在80％左右，合同编号、地址等字段仅有70％左右的准确率。因此，需要提高对合同要素的识别准确率。而现有的合同要素抽取模型主要存在以下问题：(1)合同类型多，格式复杂多样，现有的模型泛化能力不强。(2)合同甲乙双方基本信息错位，模型抽取也存在错位问题，无纠正能力。(3)合同要素抽取字段过多，粒度也更细，某些字段数据占比较少，模型抽取不到或抽取错误。(4)合同章印部分的字段信息，受OCR影响，模型抽取不全或抽取错误。

技术实现思路

[0003]鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于样本数据增强的篇章级合同抽取方法及系统，用于解决现有的合同要素抽取模型存在的问题。
[0004]...

【技术保护点】

【技术特征摘要】
1.一种基于样本数据增强的篇章级合同抽取方法，其特征在于，所述方法包括以下步骤：获取待处理合同，并判断所述待处理合同的文本类型；基于所述待处理合同的文本类型确定所述待处理合同的文本抽取方式；按照确定的文本抽取方式对所述待处理合同进行段落和章节信息抽取，并根据章节分级标志使用正则匹配进行划分，将划分后的章节信息分别加在所属的句子开头；根据要素数据类型，对划分后的章节信息进行数据加强；采用预设网络模型从完成数据增强后的章节信息进行信息抽取，并将预设网络模型抽取的信息通过规则进行错误纠正、相似匹配和错位纠正，输出最终结果。2.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，所述待处理合同的文本类型包括：图像格式的PDF文本类型、可编辑格式的PDF文本类型和WORD文本类型。3.根据权利要求1所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，对划分后的章节信息进行数据加强的过程包括：对划分后的章节信息进行同义词替换、随机插入、随机替换与随机删除，以对划分后的章节信息进行数据扩充。4.根据权利要求1至3中任一所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，采用预设网络模型从完成数据增强后的章节信息进行信息抽取的过程包括：对合同文本信息每个字符或词增加起始位置和终止位置；基于合同文本信息进行建模，得到批次大小*文本长度的二维矩阵，并将字或词组成的新短语结构进行扁平化处理，通过预训练模型得到三维矩阵；根据自注意力机制实现字和词之间的信息交互，得到合同文本的表征；将得到的表征输入到条件随机场中，抽取出合同文本中的各个要素字段信息。5.根据权利要求4所述的基于样本数据增强的篇章级合同抽取方法，其特征在于，抽取的要素字段信息包括以下至少之一：合同名称、甲方账户名、乙方账户名、合同税率、金额币种、金额是否含税、开始时间、截止日期、甲方银行账号、乙方银行账号、甲方税号、乙方税号、甲方法人、乙方法人。6.一种基于样本数据增强的篇章级合同抽取系统，其特征在...

【专利技术属性】
技术研发人员：王磊，汪志成，石赟，张顺晨，周纬，杨程旺，
申请(专利权)人：上海欧冶金融信息服务股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人