【技术实现步骤摘要】
一种询证函解析和校验方法
[0001]本专利技术涉及一种询证函解析和校验方法,尤其是一种函证类pdf的解析和校验方法。
技术介绍
[0002]近年来,深度学习技术在图形图像、自然语言处理、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
[0003]在文本信息处理中,PDF存在很多仍待解决的问题。如需提取文件中的内容和以及其中的表格内容提取转为excel,各类印章签名的识别,快递条码信息提取等都要消耗大量的人力成本。也容易出错,性价比较低。
技术实现思路
[0004]针对上述问题中存在的不足之处,本专利技术提供一种在金融领域场景中,精准识别以印刷体为主要字体的pdf中英文本以及印章定位、表格定位提取、图片对比、快递单识别提取的方法。
[0005]为实现上述目的,本专利技术提供一种函证类pdf的解析和校验方法,包括以下步骤:
[0006]步骤1、获取pdf文件,进行切图
[0007]步骤2、检测和数据入库
[0008]步骤3、ETL
[0009]步骤4、数据校验
[0010]步骤5、人工修正,重新检测和校验
[0011]步骤6、生成报告
[0012]上述的一种询证函解析和校验方法,其中,在步骤1中,根据数据库中存储的文件路径在文件服务系统中获取对应的文件,调用python分割图片服务将输入的发函或回函pdf文件按页切成图片,并按照预定规则保存到对应的位置,供给后续的流程使用。
[0013]上述的一种询证函解析和 ...
【技术保护点】
【技术特征摘要】
1.一种询证函解析和校验方法,包括以下步骤:步骤1、获取文件,进行切图步骤2检测和数据入库步骤3、ETL步骤4、数据校验步骤5、人工修正,重新检测和校验步骤6、生成报告。2.根据权利要求1所述的一种询证函解析和校验方法,其特征在于,在步骤1中,根据数据库中存储的文件路径在文件服务系统中获取对应的文件,调用python分割图片服务将输入的发函或回函pdf文件按页切成图片,并按照预定规则保存到对应的位置,供给后续的流程使用。3.根据权利要求2所述的一种函证解析和校验方法,其特征在于,在步骤2中,文件识别的过程中首先需要将图片转换为base64格式,再依次调用文件识别中对应的服务:OCR印刷体文字检测和识别、表格区域检测、印章检测和识别,最后将识别后的结构化数据存储到数据库对应的表中。4.根据权利要求3所述的一种询证函解析和校验方法,其特征在于,对不同的内容调用不同的OCR模型,如下:1)对文件中的印刷体文字进行OCR文字检测和识别,返回对应的内容和坐标。2)OCR文字检测模块:使用DBNet模型,模型使用Differentiable Binarization模块,不仅简化了文件检测的二值化方法而且效果优于之前的方法。3)OCR文字识别模块:中文识别使用CRNN+CTC模型,英文识别使用CRNN+Attention,CRNN+CTC/Attention模型既能达到较高的准确率,又方便标注数据。4)目标检测,主要包括函证中的授权章、骑缝章、回函章、kp id mark、手写体等返回其坐标,日期章返回其坐标和内容。5)目标检测模型:使用Yolov3,Yolov3基于对锚框的思想实现目标检测,有推理速度快,性价比高,通用性强的优点。6)表格区域检测,调用表格区域模型,识别图片中的表格区域,返回其坐标。收集不同检测类别的相关信息,并在权利要求4中对应不同的校验方式。上述模型都基于深度学习模型,深度学习在准确性和鲁棒性有压倒性优势,既能达到较高的检测效率,又能实现较快的模型收敛速度。5.根据权利要求1中所述的一种询证函解析和校验方法,其特征在于,在步骤3中,将数据库存在原始库中的文件信息,通过ETL清洗和同步规则用于后续的数据校验和报告生成。6.根据权利要求5中所述的一...
【专利技术属性】
技术研发人员:金鑫,李鹏辉,
申请(专利权)人:上海犀语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。