一种询证函解析和校验方法技术

技术编号:34041183 阅读:10 留言:0更新日期:2022-07-06 13:31
本发明专利技术公开了一种询证函解析和校验方法,函证是以财政部、银监会披露要求规范的各类函证文档,包括授权发函、公司回函和银行回函;文档语种支持中文和中英文。本发明专利技术主要包括:1)获取pdf文件执行切图服务;2)文件识别和数据入库;3)ETL;4)数据校验;5)人工修正,重新校验;6)生成报告。本发明专利技术需要应用部分与底层OCR各类模型算法引擎协同工作,设计上引入微服务架构和松耦合服务,同时合理利用未来发展趋势的技术平台架构(开发语言,开发框架,数据库等)建立一套功能完整业务处理模块,本发明专利技术具有高可维护性、高可扩展性、高可用性等特点。高可用性等特点。高可用性等特点。

A method of analyzing and verifying confirmation letter

【技术实现步骤摘要】
一种询证函解析和校验方法


[0001]本专利技术涉及一种询证函解析和校验方法,尤其是一种函证类pdf的解析和校验方法。

技术介绍

[0002]近年来,深度学习技术在图形图像、自然语言处理、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
[0003]在文本信息处理中,PDF存在很多仍待解决的问题。如需提取文件中的内容和以及其中的表格内容提取转为excel,各类印章签名的识别,快递条码信息提取等都要消耗大量的人力成本。也容易出错,性价比较低。

技术实现思路

[0004]针对上述问题中存在的不足之处,本专利技术提供一种在金融领域场景中,精准识别以印刷体为主要字体的pdf中英文本以及印章定位、表格定位提取、图片对比、快递单识别提取的方法。
[0005]为实现上述目的,本专利技术提供一种函证类pdf的解析和校验方法,包括以下步骤:
[0006]步骤1、获取pdf文件,进行切图
[0007]步骤2、检测和数据入库
[0008]步骤3、ETL
[0009]步骤4、数据校验
[0010]步骤5、人工修正,重新检测和校验
[0011]步骤6、生成报告
[0012]上述的一种询证函解析和校验方法,其中,在步骤1中,根据数据库中存储的文件路径在文件服务系统中获取对应的文件,调用python分割图片服务将输入的发函或回函pdf文件按页切成图片,并按照预定规则保存到对应的位置,供给后续的流程使用。
[0013]上述的一种询证函解析和校验方法,在步骤2中,文件识别的过程中首先需要将图片转换为base64格式,再依次调用文件识别中对应的服务:OCR印刷体文字检测和识别、表格区域检测、印章检测和识别,最后将识别后的结构化数据存储到数据库对应的表中。
[0014]上述检测模型均基于深度学习训练,并通过对已有模型的迁移学习,可在较短时间内,达到较高的检测效率,和较快的模型收敛速度。
[0015]上述的一种询证函解析和校验方法,在步骤3中,将数据库存在原始库中的文件信息,通过ETL清洗和同步规则用于后续的数据校验和报告生成。
[0016]上述的一种询证函解析和校验方法,在步骤4中,对ETL清洗清洗后的数据按照数据库配置表中针对发函或回函制定的不同校验规则,依次去校验数据的准确性,并在校验结果表中根据校验点生成一条或者多条的校验记录,用于后续的人工修正。
[0017]上述的一种询证函解析和校验方法,在步骤5中,通过人工修正校验结果,弥补机
器识别的不足,同时也对识别失败的文件,补充函证id、快递单号、发函单位名称、发函单位地址等关键性的信息。
[0018]上述的一种询证函解析和校验方法,在步骤6中,将步骤2、3、4、5生成的数据,基于原始文件生成对应的报告。
[0019]本专利技术具有以下优点:
[0020]本专利技术利用模版创建技术有效解决了人工审核函证的低时效、受人工技能、熟悉度等问题的限制,并利用深度学习的最新成果进一步提升识别效果。
附图说明
[0021]图1为本专利技术中方法部分的流程图;
[0022]主要附图标记说明如下:
[0023]1‑
获取pdf文件,进行切图;
[0024]2‑
检测和数据入库;
[0025]3‑
ETL;
[0026]4‑
数据校验;
[0027]5‑
人工修正,重新检测和校验;
[0028]6‑
生成报告
具体实施方式
[0029]如图1所示,本专利技术提供一种询证函解析和校验方法,包括以下步骤
[0030]步骤1、获取pdf文件,进行切图
[0031]在步骤1中,根据数据库中存储的文件路径在文件服务系统中获取对应的文件,调用python分割图片服务将输入的发函或回函pdf文件按页切成图片,并按照预定规则保存到对应的位置,供给后续的流程使用。
[0032]步骤2、文件识别和数据入库;
[0033]在步骤2中,文件识别的过程中首先需要将图片转换为base64格式,再依次调用文件识别中对应的服务:OCR印刷体文字检测和识别、表格区域检测、印章检测和识别,最后将识别后的结构化数据存储到数据库对应的表中。
[0034]步骤3、ETL;
[0035]在步骤3中,将数据库存在原始库中的文件信息,通过ETL清洗和同步规则用于后续的数据校验和报告生成。
[0036]步骤4、数据校验;
[0037]在步骤4中,对ETL清洗清洗后的数据按照数据库配置表中针对发函或回函制定的不同校验规则,依次去校验数据的准确性,并在校验结果表中根据校验点生成一条或者多条的校验记录,用于后续的人工修正。
[0038]步骤5、人工修正,重新检测和校验
[0039]在步骤5中,通过人工修正校验结果,弥补机器识别的不足,同时也对识别失败的文件,补充函证id、快递单号、发函单位名称、发函单位地址等关键性的信息。
[0040]步骤6、生成报告
[0041]在步骤6中,将步骤2、3、4、5生成的数据,基于原始文件生成对应的报告。
[0042]以上仅为本专利技术的较佳实施例,对专利技术而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在专利技术权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本专利技术的保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种询证函解析和校验方法,包括以下步骤:步骤1、获取文件,进行切图步骤2检测和数据入库步骤3、ETL步骤4、数据校验步骤5、人工修正,重新检测和校验步骤6、生成报告。2.根据权利要求1所述的一种询证函解析和校验方法,其特征在于,在步骤1中,根据数据库中存储的文件路径在文件服务系统中获取对应的文件,调用python分割图片服务将输入的发函或回函pdf文件按页切成图片,并按照预定规则保存到对应的位置,供给后续的流程使用。3.根据权利要求2所述的一种函证解析和校验方法,其特征在于,在步骤2中,文件识别的过程中首先需要将图片转换为base64格式,再依次调用文件识别中对应的服务:OCR印刷体文字检测和识别、表格区域检测、印章检测和识别,最后将识别后的结构化数据存储到数据库对应的表中。4.根据权利要求3所述的一种询证函解析和校验方法,其特征在于,对不同的内容调用不同的OCR模型,如下:1)对文件中的印刷体文字进行OCR文字检测和识别,返回对应的内容和坐标。2)OCR文字检测模块:使用DBNet模型,模型使用Differentiable Binarization模块,不仅简化了文件检测的二值化方法而且效果优于之前的方法。3)OCR文字识别模块:中文识别使用CRNN+CTC模型,英文识别使用CRNN+Attention,CRNN+CTC/Attention模型既能达到较高的准确率,又方便标注数据。4)目标检测,主要包括函证中的授权章、骑缝章、回函章、kp id mark、手写体等返回其坐标,日期章返回其坐标和内容。5)目标检测模型:使用Yolov3,Yolov3基于对锚框的思想实现目标检测,有推理速度快,性价比高,通用性强的优点。6)表格区域检测,调用表格区域模型,识别图片中的表格区域,返回其坐标。收集不同检测类别的相关信息,并在权利要求4中对应不同的校验方式。上述模型都基于深度学习模型,深度学习在准确性和鲁棒性有压倒性优势,既能达到较高的检测效率,又能实现较快的模型收敛速度。5.根据权利要求1中所述的一种询证函解析和校验方法,其特征在于,在步骤3中,将数据库存在原始库中的文件信息,通过ETL清洗和同步规则用于后续的数据校验和报告生成。6.根据权利要求5中所述的一...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1