一种OCR文档识别方法技术

技术编号：29331712 阅读：20 留言：0更新日期：2021-07-20 17:49

本发明专利技术公开了一种OCR文档识别方法，包括以下步骤：1)OCR深度学习模型训练；2)图像获取；3)图像预处理；4)表格判断；5)表格交点检测；6)子图片文字识别。本发明专利技术属于文档识别技术领域，具体是提供了一种通过对样本文档图片进行采集并作为训练集进行深度学习训练，得到基于卷积神经网络模型的OCR深度学习模型，通过对文档图像进行多重预处理，识别表格中是否存在表格，有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种OCR文档识别方法
本专利技术属于文档识别
，具体是指一种OCR文档识别方法。
技术介绍
光学字符识别(OpticalCharacterRecognition，OCR)方法是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的电子文档，将电子文档中的字符串切分开，形成包含单个字符的小图片，然后使用一定的方法对切分后的文字进行识别。现有的OCR识别方法因为待识别图片中字符排版多样等因素，只能较为准确的识别身份证、银行卡等字符排版固定的图片，但是对其他文档的图片识别效果较差。随着资讯的发展，图文资料广泛传播，基于图像的文字识别得到了广泛应用。现有技术中OCR文档识别主要通过深度学习或机器学习等方法，检测出图像中的文字区域，为后续的文字识别模块提供初始图像。但是现有技术在处理包含表格的文档时，表格中文字的识别准确率相对比较低，因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。
技术实现思路
为解决上述现有难题，本专利技术提供了一种通过对基于卷积神经网络模型的OCR深度学习模型进行训练学习，通过对文档图像进行多重预处理，识别表格中是否存在表格，能够有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。本专利技术采用的技术方案如下：一种OCR文档识别方法，包括以下步骤：1)OCR深度学习模型训练：采集不同指定排版方式的样本文档图片，对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集，对第一字符图像训练样本集...

【技术保护点】
1.一种OCR文档识别方法，其特征在于，包括以下步骤：/n1)OCR深度学习模型训练：采集不同指定排版方式的样本文档图片，对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集，对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像，对字符图像进行变换，增加字符的字体种类，形成OCR字符识别训练样本集，通过OCR字符识别训练样本集进行深度学习训练，得到OCR深度学习模型；/n2)图像获取：获取纸质文档的正投影视图图像，得文档图像；/n3)图像预处理：通过OpenCV开源的代码库调节文档图像的亮度和对比度，并对图像进行去噪处理和二值化处理；计算图像的倾斜角度并对图像进行角度校正，使图像中的文字处于水平竖直状态得预处理图像；/n4)表格判断：对预处理图像进行边缘检测得到边缘图像；计算所述边缘图像的边缘密集程度，根据边缘密集程度判断所述预处理图像中是否包括表格，若预处理图像中存在表格则执行步骤5)，若预处理图像中不存在表格则执行步骤6)；/n5)表格交点检测：采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测，检测出所述预处理图像中的单元格，将...

【技术特征摘要】
1.一种OCR文档识别方法，其特征在于，包括以下步骤：
1)OCR深度学习模型训练：采集不同指定排版方式的样本文档图片，对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集，对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像，对字符图像进行变换，增加字符的字体种类，形成OCR字符识别训练样本集，通过OCR字符识别训练样本集进行深度学习训练，得到OCR深度学习模型；
2)图像获取：获取纸质文档的正投影视图图像，得文档图像；
3)图像预处理：通过OpenCV开源的代码库调节文档图像的亮度和对比度，并对图像进行去噪处理和二值化处理；计算图像的倾斜角度并对图像进行角度校正，使图像中的文字处于水平竖直状态得预处理图像；
4)表格判断：对预处理图像进行边缘检测得到边缘图像；计算所述边缘图像的边缘密集程度，根据边缘密集程度判断所述预处理图像中是否包括表格，若预处理图像中存在表格则执行步骤5)，若预处理图像中不存在表格则执行步骤6)；
5)表格交点检测：采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测，检测出所述预处理图像中的单元格，将各单元格中的内容作为一个整体切分出来，形成对应的子图片；
6)子图片文字识别：对子图片进行字符分割，然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。

2.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练，包括如下步骤：
11)获取OCR字符识别训练样本集...

【专利技术属性】
技术研发人员：李俊，
申请(专利权)人：上海趋研信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人