一种基于深度学习的自由格式文档识别方法技术

技术编号:27312385 阅读:12 留言:0更新日期:2021-02-10 09:37
本发明专利技术涉及一种基于深度学习的自由格式文档识别方法,包括以下步骤:定义模板,所述模板中包含多个矩形碎片的坐标位置;获取待识别文档;OCR引擎全文识别,以判断待识别文档所属模板;调用模板中所有矩形碎片的坐标位置,采用YOLO目标检测模型将模板中所有矩形碎片及其坐标位置对应在待识别文档中;根据矩形碎片及其坐标位置切割待识别文档,形成多个碎片文件;将多个碎片文件存入数据库,并将多个碎片文件传入消息队列中;OCR引擎继续识别消息队列中的碎片文件,得到识别结果;返回碎片文件和识别结果到数据库;完成识别。本发明专利技术通过两次采用OCR引擎进行识别,提高了识别的准确率;还通过提前定义模板及矩形碎片等,从而明确被识别内容的作用和意义。识别内容的作用和意义。识别内容的作用和意义。

【技术实现步骤摘要】
一种基于深度学习的自由格式文档识别方法


[0001]本专利技术涉及识别
,特别涉及一种基于深度学习的自由格式文档识别方法。

技术介绍

[0002]文档识别任务一般通过一定的图像处理来识别图像中的文本内容。文本识别可应用于许多领域,如信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及文档检索等,综上就是各类证件识别和财务票据处理的办公自动化等。方便用户快速录入信息,提高各行各业的工作效率。
[0003]目前关于文本识别方法有多种,例如基于传统图像处理,对字符进行分割,然后单独分类识别,其中一般需要对图像进行灰度化、二值化、阈值分割、归一化、支持向量机(Support Vector Machine,SVM)分类等来完成识别;再例如就是对具体的打印文档OCR识别结果进行自然语言处理,获得想要的信息。虽然OCR识别的适用范围比较通用,但也有它的缺点,处理过程比较复杂且不可见,不能保证输出完全正确。深度学习自然语言处理对于结果正确率的保障极其依赖于训练数据。对于专业文档来说语义是极其复杂的,现在市面上对于法律和财会等专业文档的自然语言处理引擎都不能保证很好的效果,基本上处理正确率能在80%就已经是很高了。
[0004]专利技术人在实施现有识别方法的过程中发现,现有识别方法存在如下缺点:
[0005]基于传统图像处理方法往往需要人工针对性的设计一些特征,中间还要穿插一些规则对算法处理不当的地方进行修正,并且对于图像背景复杂、干扰多,字符粘结严重的情况,传统方法处理的效果不是很好。而对具体的打印文档OCR识别结果进行自然语言处理,存在着处理过程比较复杂且不可见,正确率低等缺陷。
[0006]并且,目前市场上识别产品的功能主要是能把图片中的文字信息提取出来,但是并不知道提取出来的文字是什么意思。对于信息量巨大的财报或其他打印文档,如果不能准确知道识别的信息的标签,全部识别出来对于具体业务是几乎没有意义的。
[0007]因此有必要提供一种基于深度学习的自由格式文档识别方法,以解决现有技术中文档识别正确率低以及不能明确识别文字的标签的问题。

技术实现思路

[0008]本专利技术的目的在于提供一种基于深度学习的自由格式文档识别方法,以解决现有技术中文档识别正确率低以及不能明确识别文字的标签的问题。
[0009]为了解决现有技术中存在的问题,本专利技术提供了一种基于深度学习的自由格式文档识别方法,包括以下步骤:
[0010]定义模板,所述模板中包含多个矩形碎片的坐标位置;
[0011]获取待识别文档;
[0012]OCR引擎全文识别,以判断所述待识别文档所属模板;
[0013]调用所述模板中所有矩形碎片的坐标位置,采用YOLO目标检测模型将模板中所有的矩形碎片及其坐标位置对应在所述待识别文档中;
[0014]根据所述矩形碎片及其坐标位置切割所述待识别文档,形成多个碎片文件;
[0015]将所述多个碎片文件存入数据库,并将所述多个碎片文件传入消息队列中;
[0016]OCR引擎继续识别消息队列中的碎片文件,得到识别结果;
[0017]返回所述碎片文件和识别结果到数据库;
[0018]完成识别。
[0019]可选的,在所述基于深度学习的自由格式文档识别方法中,各碎片文件均具有各自的UUID。
[0020]可选的,在所述基于深度学习的自由格式文档识别方法中,所述碎片文件包括:UUID、命名、坐标位置、编号以及识别引擎。
[0021]可选的,在所述基于深度学习的自由格式文档识别方法中,OCR引擎继续识别消息队列中的碎片文件的过程中,采用RCNN模型进行图片文本识别,得到识别结果。
[0022]可选的,在所述基于深度学习的自由格式文档识别方法中,所述模板包括:证件类模板、申请书类模板、审批类模板和报表类模板;
[0023]各类模板中包括多种模板。
[0024]可选的,在所述基于深度学习的自由格式文档识别方法中,定义模板包括以下步骤:
[0025]上传具有模板的图片;
[0026]定义模板的名称;
[0027]在所述图片中画出所有的矩形碎片,并显示所有矩形碎片的坐标位置;
[0028]选择各所述矩形碎片的识别引擎;
[0029]填写各所述矩形碎片的标签;
[0030]完成模板定义。
[0031]可选的,在所述基于深度学习的自由格式文档识别方法中,在获取待识别文档之后,OCR引擎全文识别之前,还包括以下步骤:
[0032]主动选择对应模板。
[0033]可选的,在所述基于深度学习的自由格式文档识别方法中,在OCR引擎全文识别之后,调用所述模板中所有的坐标位置之前,还包括以下步骤:
[0034]对所述待识别文档进行预处理;
[0035]所述预处理包括旋转纠正、按照特征识别区域切割和/或移动所述待识别文档。
[0036]可选的,在所述基于深度学习的自由格式文档识别方法中,所述待识别文档包括:单独的图片文档、含多个图片的文档以及同时含文字和图片的文档。
[0037]可选的,在所述基于深度学习的自由格式文档识别方法中,若所述待识别文档不能归属于现有模板中任意一个模板,则不对所述待识别文档进行处理。
[0038]本专利技术相对于现有技术,具有以下优点:
[0039](1)通过先识别待识别文档中的碎片文件及其坐标位置,再识别各碎片文件中的图片内容的方式,实现了异步识别;
[0040](2)通过异步识别待识别文档的方式,解耦了图片输入处理服务和OCR引擎服务,保证了对大批量高并发识别请求的稳定处理,削除了请求高峰,合理分发了请求,另外,异步处理过程缓存了快速度服务的请求,解决了两个服务速度差异的冲突;
[0041](3)通过采用OCR引擎继续识别消息队列中的碎片文件,提高了识别的准确率;
[0042](4)通过提前定义矩形碎片及其坐标位置,从而明确了被识别内容的作用和意义;
[0043](5)可用于自动识别、提取和存储自由格式文档中的文本内容;
[0044](6)节省人工录入成本。
附图说明
[0045]图1为本专利技术实施例提供的识别待识别文档的流程图;
[0046]图2为本专利技术实施例提供的定义模板的流程图。
具体实施方式
[0047]下面将结合示意图对本专利技术的具体实施方式进行更详细的描述。根据下列描述,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0048]在下文中,如果本文所述的方法包括一系列步骤,则本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法中。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的自由格式文档识别方法,其特征在于,包括以下步骤:定义模板,所述模板中包含多个矩形碎片的坐标位置;获取待识别文档;OCR引擎全文识别,以判断所述待识别文档所属模板;调用所述模板中所有矩形碎片的坐标位置,采用YOLO目标检测模型将模板中所有的矩形碎片及其坐标位置对应在所述待识别文档中;根据所述矩形碎片及其坐标位置切割所述待识别文档,形成多个碎片文件;将所述多个碎片文件存入数据库,并将所述多个碎片文件传入消息队列中;OCR引擎继续识别消息队列中的碎片文件,得到识别结果;返回所述碎片文件和识别结果到数据库;完成识别。2.如权利要求1所述的基于深度学习的自由格式文档识别方法,其特征在于,各碎片文件均具有各自的UUID。3.如权利要求2所述的基于深度学习的自由格式文档识别方法,其特征在于,所述碎片文件包括:UUID、命名、坐标位置、编号以及识别引擎。4.如权利要求1所述的基于深度学习的自由格式文档识别方法,其特征在于,OCR引擎继续识别消息队列中的碎片文件的过程中,采用RCNN模型进行图片文本识别,得到识别结果。5.如权利要求1所述的基于深度学习的自由格式文档识别方法,其特征在于,所述模板包括:证件类模板、申请书...

【专利技术属性】
技术研发人员:王文锋傅启予韩光祖秦泽文邓梁朱志童
申请(专利权)人:富邦华一银行有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1