一种询证函解析和校验方法技术

技术编号：34041183 阅读：10 留言：0更新日期：2022-07-06 13:31

本发明专利技术公开了一种询证函解析和校验方法，函证是以财政部、银监会披露要求规范的各类函证文档，包括授权发函、公司回函和银行回函；文档语种支持中文和中英文。本发明专利技术主要包括：1)获取pdf文件执行切图服务；2)文件识别和数据入库；3)ETL；4)数据校验；5)人工修正，重新校验；6)生成报告。本发明专利技术需要应用部分与底层OCR各类模型算法引擎协同工作，设计上引入微服务架构和松耦合服务，同时合理利用未来发展趋势的技术平台架构(开发语言，开发框架，数据库等)建立一套功能完整业务处理模块，本发明专利技术具有高可维护性、高可扩展性、高可用性等特点。高可用性等特点。高可用性等特点。

A method of analyzing and verifying confirmation letter

全部详细技术资料下载

【技术实现步骤摘要】
一种询证函解析和校验方法

[0001]本专利技术涉及一种询证函解析和校验方法，尤其是一种函证类pdf的解析和校验方法。

技术介绍

[0002]近年来，深度学习技术在图形图像、自然语言处理、自动驾驶等多个领域得到大量应用，且表现效果要明显优于传统方法。
[0003]在文本信息处理中，PDF存在很多仍待解决的问题。如需提取文件中的内容和以及其中的表格内容提取转为excel，各类印章签名的识别，快递条码信息提取等都要消耗大量的人力成本。也容易出错，性价比较低。

技术实现思路

[0004]针对上述问题中存在的不足之处，本专利技术提供一种在金融领域场景中，精准识别以印刷体为主要字体的pdf中英文本以及印章定位、表格定位提取、图片对比、快递单识别提取的方法。
[0005]为实现上述目的，本专利技术提供一种函证类pdf的解析和校验方法，包括以下步骤：
[0006]步骤1、获取pdf文件，进行切图
[0007]步骤2、检测和数据入库
[0008]步骤3、ETL
[0009]步骤4、数据校验
[0010]步骤5、人工修正，重新检测和校验
[0011]步骤6、生成报告
[0012]上述的一种询证函解析和校验方法，其中，在步骤1中，根据数据库中存储的文件路径在文件服务系统中获取对应的文件，调用python分割图片服务将输入的发函或回函pdf文件按页切成图片，并按照预定规则保存到对应的位置，供给后续的流程使用。
[0013]上述的一种询证函解析和...

【技术保护点】

【技术特征摘要】
1.一种询证函解析和校验方法，包括以下步骤：步骤1、获取文件，进行切图步骤2检测和数据入库步骤3、ETL步骤4、数据校验步骤5、人工修正，重新检测和校验步骤6、生成报告。2.根据权利要求1所述的一种询证函解析和校验方法，其特征在于，在步骤1中，根据数据库中存储的文件路径在文件服务系统中获取对应的文件，调用python分割图片服务将输入的发函或回函pdf文件按页切成图片，并按照预定规则保存到对应的位置，供给后续的流程使用。3.根据权利要求2所述的一种函证解析和校验方法，其特征在于，在步骤2中，文件识别的过程中首先需要将图片转换为base64格式，再依次调用文件识别中对应的服务：OCR印刷体文字检测和识别、表格区域检测、印章检测和识别，最后将识别后的结构化数据存储到数据库对应的表中。4.根据权利要求3所述的一种询证函解析和校验方法，其特征在于，对不同的内容调用不同的OCR模型，如下：1)对文件中的印刷体文字进行OCR文字检测和识别，返回对应的内容和坐标。2)OCR文字检测模块：使用DBNet模型，模型使用Differentiable Binarization模块，不仅简化了文件检测的二值化方法而且效果优于之前的方法。3)OCR文字识别模块：中文识别使用CRNN+CTC模型，英文识别使用CRNN+Attention，CRNN+CTC/Attention模型既能达到较高的准确率，又方便标注数据。4)目标检测，主要包括函证中的授权章、骑缝章、回函章、kp id mark、手写体等返回其坐标，日期章返回其坐标和内容。5)目标检测模型：使用Yolov3，Yolov3基于对锚框的思想实现目标检测，有推理速度快，性价比高，通用性强的优点。6)表格区域检测，调用表格区域模型，识别图片中的表格区域，返回其坐标。收集不同检测类别的相关信息，并在权利要求4中对应不同的校验方式。上述模型都基于深度学习模型，深度学习在准确性和鲁棒性有压倒性优势，既能达到较高的检测效率，又能实现较快的模型收敛速度。5.根据权利要求1中所述的一种询证函解析和校验方法，其特征在于，在步骤3中，将数据库存在原始库中的文件信息，通过ETL清洗和同步规则用于后续的数据校验和报告生成。6.根据权利要求5中所述的一...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人