一种基于深度学习的自由格式文档识别方法技术

技术编号：27312385 阅读：12 留言：0更新日期：2021-02-10 09:37

本发明专利技术涉及一种基于深度学习的自由格式文档识别方法，包括以下步骤：定义模板，所述模板中包含多个矩形碎片的坐标位置；获取待识别文档；OCR引擎全文识别，以判断待识别文档所属模板；调用模板中所有矩形碎片的坐标位置，采用YOLO目标检测模型将模板中所有矩形碎片及其坐标位置对应在待识别文档中；根据矩形碎片及其坐标位置切割待识别文档，形成多个碎片文件；将多个碎片文件存入数据库，并将多个碎片文件传入消息队列中；OCR引擎继续识别消息队列中的碎片文件，得到识别结果；返回碎片文件和识别结果到数据库；完成识别。本发明专利技术通过两次采用OCR引擎进行识别，提高了识别的准确率；还通过提前定义模板及矩形碎片等，从而明确被识别内容的作用和意义。识别内容的作用和意义。识别内容的作用和意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的自由格式文档识别方法

[0001]本专利技术涉及识别
，特别涉及一种基于深度学习的自由格式文档识别方法。

技术介绍

[0002]文档识别任务一般通过一定的图像处理来识别图像中的文本内容。文本识别可应用于许多领域，如信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理，以及文档检索等，综上就是各类证件识别和财务票据处理的办公自动化等。方便用户快速录入信息，提高各行各业的工作效率。
[0003]目前关于文本识别方法有多种，例如基于传统图像处理，对字符进行分割，然后单独分类识别，其中一般需要对图像进行灰度化、二值化、阈值分割、归一化、支持向量机(Support Vector Machine，SVM)分类等来完成识别；再例如就是对具体的打印文档OCR识别结果进行自然语言处理，获得想要的信息。虽然OCR识别的适用范围比较通用，但也有它的缺点，处理过程比较复杂且不可见，不能保证输出完全正确。深度学习自然语言处理对于结果正确率的保障极其依赖于训练数据。对于专业文档来说语义是极其复杂的，现在市面上对于法律和财会等专业文档的自然语言处理引擎都不能保证很好的效果，基本上处理正确率能在80％就已经是很高了。
[0004]专利技术人在实施现有识别方法的过程中发现，现有识别方法存在如下缺点：
[0005]基于传统图像处理方法往往需要人工针对性的设计一些特征，中间还要穿插一些规则对算法处理不当的地方进行修正，并且对于...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的自由格式文档识别方法，其特征在于，包括以下步骤：定义模板，所述模板中包含多个矩形碎片的坐标位置；获取待识别文档；OCR引擎全文识别，以判断所述待识别文档所属模板；调用所述模板中所有矩形碎片的坐标位置，采用YOLO目标检测模型将模板中所有的矩形碎片及其坐标位置对应在所述待识别文档中；根据所述矩形碎片及其坐标位置切割所述待识别文档，形成多个碎片文件；将所述多个碎片文件存入数据库，并将所述多个碎片文件传入消息队列中；OCR引擎继续识别消息队列中的碎片文件，得到识别结果；返回所述碎片文件和识别结果到数据库；完成识别。2.如权利要求1所述的基于深度学习的自由格式文档识别方法，其特征在于，各碎片文件均具有各自的UUID。3.如权利要求2所述的基于深度学习的自由格式文档识别方法，其特征在于，所述碎片文件包括：UUID、命名、坐标位置、编号以及识别引擎。4.如权利要求1所述的基于深度学习的自由格式文档识别方法，其特征在于，OCR引擎继续识别消息队列中的碎片文件的过程中，采用RCNN模型进行图片文本识别，得到识别结果。5.如权利要求1所述的基于深度学习的自由格式文档识别方法，其特征在于，所述模板包括：证件类模板、申请书...

【专利技术属性】
技术研发人员：王文锋，傅启予，韩光祖，秦泽文，邓梁，朱志童，
申请(专利权)人：富邦华一银行有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人