一种合同要素抽取方法技术

技术编号:38156618 阅读:20 留言:0更新日期:2023-07-13 09:25
本发明专利技术公开了一种合同要素抽取方法,本发明专利技术主要包括:1)获取待处理文档;2)预处理服务,对文档进行切图;3)调用OCR服务;4)调用句子分类服务;5)调用命名实体服务;6)调用后处理服务。本发明专利技术从设计上采用高内聚,低耦合,上述流程中各个服务彼此之间是相互独立的,同时利用编程框架,数据库等搭建一套完善的抽取流程。本发明专利技术具有高可重用性、极强的移植性、高扩展性等特点。性等特点。性等特点。

【技术实现步骤摘要】
一种合同要素抽取方法


[0001]本专利技术涉及文档机器识别
,尤其是一种合同要素抽取方法。

技术介绍

[0002]近年来,作为机器学习最重要的一个分支,自然语言理解近年来发展迅猛,在国内外都引起了广泛的关注。以往,可能需要人工一页页,一行行进行浏览,从而才能获取到合同相关的要素,这需要耗费极大的人力成本,还容易出错,整个体验感大打折扣。

技术实现思路

[0003]针对上述问题中存在的不足之处,本专利技术提供一种在合同领域场景中,精准识别文档中的合同要素。
[0004]为实现上述目的,本专利技术提供一种合同类文档的解析方法,包括以下步骤:
[0005]步骤1、获取待处理的文档
[0006]步骤2、预处理服务,对文档并进行切图
[0007]步骤3、调用OCR服务
[0008]步骤4、调用句子分类服务
[0009]步骤5、调用命名实体服务
[0010]步骤6、调用后处理服务
[0011]上述的一种合同要素抽取方法,其中,在步骤1中,用户上传待处理的PDF文档后会生成对应的文件ID,可以根据文件ID在文件服务系统中获取对应的上传文件路径,供给后续流程使用;
[0012]上述的一种合同要素抽取方法,在步骤2中,遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用。
[0013]上述的一种合同要素抽取方法,在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用文字检测模型和文字识别模型,返回对应的文本内容和坐标信息。依次保存到统一的文件文件夹路径中。
[0014]上述的一种合同要素抽取方法,在步骤4中,利用步骤3中获取的文字检测模型和文字识别模型生成的文本文件夹路径,利用BiLSTM

Softmax模型,自动建模文本句子的NLP表征,学习到句子对应的特征,剔除掉其中无关文本。
[0015]上述的一种合同要素抽取方法,在步骤5中,主要通过利用BiLSTM、CRF模型、BERT+FLAT模型,自动建模学习到合同要素对应的特征。
[0016]上述的一种合同要素抽取方法,经过步骤5中实体识别抽取后,对字段进行定制化清洗。
[0017]本专利技术具有以下优点:
[0018]本专利技术利用自然语言理解有效解决了人工审阅时重复性、流程性的摘取合同要素,并利用OCR检测和识别最新的研究成果提升文字识别效果。
附图说明
[0019]图1为本专利技术合同要素抽取方法的流程图。
具体实施方式
[0020]如图1所示,本专利技术提供一种合同要素抽取方法,其中,合同是指有关各方之间在进行某种商务合作时,为了确定各自的权利和义务,而正式依法订立的、并且经过公证的、必须共同遵守的协议条文。合同要素为需要从合同中提取出来的文本,例如,合同名称(代表这份合同归属于哪种类型,例如建设工程合同,运输合同等),合同要素特征为提取同类要素有什么共同点(例如合同名称通常最后都会带着XX合同),数据库在合同要素抽取过程中主要扮演数据存储,存储每个步骤生成的中间文件和记录各个服务的执行状态信息,方便后面排查抽取流程中,各个服务是否有问题。
[0021]本专利技术包括以下步骤:
[0022]在步骤1中,用户上传待处理的PDF文档到数据库后会生成对应的文件ID,可以根据文件ID在文件服务系统中获取对应的上传文件路径,供给后续流程使用;
[0023]在步骤2中,会获取步骤1的文档,再以此遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用;
[0024]在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用OCR文字检测和识别模型,返回对应的文本内容和坐标信息。将每页图片的文本内容和坐标信息保存到某一文件夹中,供给后续流程使用。
[0025]相关的OCR模型介绍如下:
[0026]1)OCR文字检测模型:使用可微二值化网络(DBNet)模型,模型中创新地加入可微二值化(Differentiable Binarization),使得能够对待识别的图片中每一个像素点进行自适应二值化,而二值化阈值由网络学习得到,彻底将二值化步骤加入网络中一起训练,这样最终输出图对于阈值会有极高的鲁棒性。
[0027]2)OCR文字识别模型:使用CRNN模型和CTC模型,通过CNN Backbone提取图像的特征,然后通过RNN网络提取图像文本序列的特征。而CTC提出一种对不需要对齐的损失函数计算方法,用于训练网络,被广泛应用于文本行识别和语音识别中。
[0028]在步骤4中,先对收集的文本语料进行打标签(标明哪些是步骤5需要的好文本,和不需要的坏文本),生成训练集和测试集,利用BiLSTM

Softmax模型,自动建模文本句子的NLP表征,学习到好坏文本对应的特征。其次遍历文本文件夹路径,调用提前训练好的BiLSTM

Softmax模型,依次提取出好文本,保存到相应的文件夹中,供给后续流程使用。
[0029]在步骤5中,先对收集到的文本语料进行打标签(标明哪些是最终需要的合同要素),生成训练集和测试集,然后利用BiLSTM、CRF模型、BERT+FLAT模型,自动建模学习到合同要素对应的特征。其次遍历步骤4中的文本文件夹路径,调用提前训练好的模型,依次提取出合同要素。
[0030]模型相关介绍如下:
[0031]1)LSTM来源于深度学习经典模型RNN(循环神经网络)。在阅读时,人类能够基于对先前所见到的词语的理解来推断当前词的真实含义,RNN正是模仿了这一点,在处理序列数据时,可以将先前的信息连接到当前任务上,允许信息持久化,特别是对于处理文本序列问
题上有独特优势。LSTM(长短记忆网络)是RNN模型的优秀变体,它的关键之处是解决了RNN过度依赖最近的输入序列,而无法有效学习远距离信息的问题,拥有学习长期依赖信息的能力。
[0032]2)条件随机场(ConditionalRandom Field,CRF)是序列标注目前的主流模型。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到最优标签序列。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。
[0033]3)FLAT模型相比于之前引入词汇信息的中文NER工作,FLAT主要创新点在于:
[0034]基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息;
[0035]基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。
[0036]在步骤6中,经过步骤5中实体识别抽取后,部分抽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同要素抽取方法,包括以下步骤:步骤1、获取待处理的文档;步骤2、预处理服务,对文档进行切图;步骤3、调用OCR服务;步骤4、调用句子分类服务;步骤5、调用命名实体服务;步骤6、调用后处理服务。2.根据权利要求1所述的一种合同要素抽取方法,其特征在于,在步骤1中,用户上传待处理的文档后会生成对应的文件ID,根据文件ID在文件服务系统中获取对应的上传文件路径,供给后续流程使用。3.根据权利要求2所述的一种合同要素抽取方法,其特征在于,在步骤2中,遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用。4.根据权利要求3所述的一种合同要素抽取方法,其特征在于,在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用文...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1