合同归档方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:41518663 阅读:16 留言:0更新日期:2024-05-30 14:54
本发明专利技术涉及数据处理领域,公开了一种合同归档方法、装置、计算机设备及存储介质,其方法通过对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合;每个合同图像集合对应一个合同;对合同图像集合中的各个合同图像进行版面分析,获得若干个页面版块,以及与每个页面版块对应的版块坐标信息;对合同图像进行文字检测和文字识别,获得包含文字坐标信息的页面文字信息;根据版块坐标信息和文字坐标信息对页面文字信息进行页面还原,获得合同图像对应的合同文本信息;对合同文本信息进行要素提取,获得与合同文本信息对应的合同要素,以根据合同要素完成合同归档。本发明专利技术实现了批量化合同归档,提高了合同归档的精准度和归档效率。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种合同归档方法、装置、计算机设备及存储介质


技术介绍

1、企业合同的管理流程主要包括合同编辑起草、合同审批签署和合同归档存储。一份纸质合同的归档存储过程需要经过扫描上传电子化、手动分类、合同号标识和合同要素人工审核等步骤,归档流程复杂,人工操作依赖度高,无法自动归档,同时无法保证人工审核的准确率。

2、现有的合同归档方法通过扫描仪得到电子合同图像,采用光学文字识别(ocr)得到合同图像内容,提取合同编号完成合同归档,借助于计算机视觉和自然语言处理技术实现了自动归档。但是面对多份合同文件混合的电子合同图像难以进行批量处理,仍然需要人工操作进行合并,对合并后的每份合同进行自动解析归档。此外,由于ocr的文字识别是基于“行”进行的,识别结果无法保留正文的段落结构,可能会出现信息错漏,例如对于跨行的合同编号,可能出现无法识别导致归档错误的情况;同时由于文件的排版形式多样,页眉、表格和印章等痕迹都会对ocr的识别结果产生干扰,导致识别的泛化能力差,准确度低。


技术实现思路

本文档来自技高网...

【技术保护点】

1.一种合同归档方法,其特征在于,包括:

2.如权利要求1所述的合同归档方法,其特征在于,所述通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合,包括:

3.如权利要求1所述的合同归档方法,其特征在于,所述对所述合同图像集合中的各个合同图像进行版面分析,获得版面分析数据,包括:

4.如权利要求3所述的合同归档方法,其特征在于,所述通过预设表格分析网络处理与所述表格版块对应的区域图像,生成表格分析数据,包括:

5.如权利要求1所述的合同归档方法,其特征在于,所述根据所述版块坐标信息和所述文字坐标信息对所述页面文字...

【技术特征摘要】

1.一种合同归档方法,其特征在于,包括:

2.如权利要求1所述的合同归档方法,其特征在于,所述通过合同首尾页分类网络对批量输入的合同图像进行首尾页分类,形成若干个合同图像集合,包括:

3.如权利要求1所述的合同归档方法,其特征在于,所述对所述合同图像集合中的各个合同图像进行版面分析,获得版面分析数据,包括:

4.如权利要求3所述的合同归档方法,其特征在于,所述通过预设表格分析网络处理与所述表格版块对应的区域图像,生成表格分析数据,包括:

5.如权利要求1所述的合同归档方法,其特征在于,所述根据所述版块坐标信息和所述文字坐标信息对所述页面文字信息进行页面还原,获得所述合同图像对应的合同文本信息,包括:

6.如权利要求1所...

【专利技术属性】
技术研发人员:闵武国钟召昌江杰
申请(专利权)人:丰巢网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1