一种合同要素抽取方法技术

技术编号：38156618 阅读：24 留言：0更新日期：2023-07-13 09:25

本发明专利技术公开了一种合同要素抽取方法，本发明专利技术主要包括：1)获取待处理文档；2)预处理服务，对文档进行切图；3)调用OCR服务；4)调用句子分类服务；5)调用命名实体服务；6)调用后处理服务。本发明专利技术从设计上采用高内聚，低耦合，上述流程中各个服务彼此之间是相互独立的，同时利用编程框架，数据库等搭建一套完善的抽取流程。本发明专利技术具有高可重用性、极强的移植性、高扩展性等特点。性等特点。性等特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种合同要素抽取方法

[0001]本专利技术涉及文档机器识别
，尤其是一种合同要素抽取方法。

技术介绍

[0002]近年来，作为机器学习最重要的一个分支，自然语言理解近年来发展迅猛，在国内外都引起了广泛的关注。以往，可能需要人工一页页，一行行进行浏览，从而才能获取到合同相关的要素，这需要耗费极大的人力成本，还容易出错，整个体验感大打折扣。

技术实现思路

[0003]针对上述问题中存在的不足之处，本专利技术提供一种在合同领域场景中，精准识别文档中的合同要素。
[0004]为实现上述目的，本专利技术提供一种合同类文档的解析方法，包括以下步骤：
[0005]步骤1、获取待处理的文档
[0006]步骤2、预处理服务，对文档并进行切图
[0007]步骤3、调用OCR服务
[0008]步骤4、调用句子分类服务
[0009]步骤5、调用命名实体服务
[0010]步骤6、调用后处理服务
[0011]上述的一种合同要素抽取方法，其中，在步骤1中，用户上传待处...

【技术保护点】

【技术特征摘要】
1.一种合同要素抽取方法，包括以下步骤：步骤1、获取待处理的文档；步骤2、预处理服务，对文档进行切图；步骤3、调用OCR服务；步骤4、调用句子分类服务；步骤5、调用命名实体服务；步骤6、调用后处理服务。2.根据权利要求1所述的一种合同要素抽取方法，其特征在于，在步骤1中，用户上传待处理的文档后会生成对应的文件ID，根据文件ID在文件服务系统中获取对应的上传文件路径，供给后续流程使用。3.根据权利要求2所述的一种合同要素抽取方法，其特征在于，在步骤2中，遍历某一个文档，把每一页转换成图片，将所有图片统一保存在某个文件夹，供给后续流程使用。4.根据权利要求3所述的一种合同要素抽取方法，其特征在于，在步骤3中，对步骤2中的文件夹路径一一遍历，分别调用文...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人