一种OCR文档识别方法技术

技术编号:29331712 阅读:20 留言:0更新日期:2021-07-20 17:49
本发明专利技术公开了一种OCR文档识别方法,包括以下步骤:1)OCR深度学习模型训练;2)图像获取;3)图像预处理;4)表格判断;5)表格交点检测;6)子图片文字识别。本发明专利技术属于文档识别技术领域,具体是提供了一种通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。

【技术实现步骤摘要】
一种OCR文档识别方法
本专利技术属于文档识别
,具体是指一种OCR文档识别方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)方法是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的电子文档,将电子文档中的字符串切分开,形成包含单个字符的小图片,然后使用一定的方法对切分后的文字进行识别。现有的OCR识别方法因为待识别图片中字符排版多样等因素,只能较为准确的识别身份证、银行卡等字符排版固定的图片,但是对其他文档的图片识别效果较差。随着资讯的发展,图文资料广泛传播,基于图像的文字识别得到了广泛应用。现有技术中OCR文档识别主要通过深度学习或机器学习等方法,检测出图像中的文字区域,为后续的文字识别模块提供初始图像。但是现有技术在处理包含表格的文档时,表格中文字的识别准确率相对比较低,因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。
技术实现思路
为解决上述现有难题,本专利技术提供了一种通过对基于卷积神经网络模型的OCR深度学习模型进行训练学习,通过对文档图像进行多重预处理,识别表格中是否存在表格,能够有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。本专利技术采用的技术方案如下:一种OCR文档识别方法,包括以下步骤:1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;2)图像获取:获取纸质文档的正投影视图图像,得文档图像;3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。进一步地,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:11)获取OCR字符识别训练样本集的目标样本字符;12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。进一步地,步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:21)对图像信号进行小波分解;22)对经过层次分解后的高频系统进行阈值量化;23)利用二维小波重构图像信号。进一步地,步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。进一步地,步骤4)所述的OCR深度学习模型采用卷积神经网络模型。进一步地,步骤6)对字图片进行字符分割的具体过程为:61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。采用上述方案本专利技术取得有益效果如下:本专利技术OCR文档识别方法,通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,对于存在表格的文档采用基于深度学习的物体检测方法对文档图像进行划分,有效提高OCR深度学习模型的准确度。附图说明图1为本专利技术一种OCR文档识别方法的流程图。具体实施方式下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。一种OCR文档识别方法,其特征在于,包括以下步骤:1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;2)图像获取:获取纸质文档的正投影视图图像,得文档图像;3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。其中,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:11)获取OCR字符识别训练样本集的目标样本字符;12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:本文档来自技高网...

【技术保护点】
1.一种OCR文档识别方法,其特征在于,包括以下步骤:/n1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;/n2)图像获取:获取纸质文档的正投影视图图像,得文档图像;/n3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;/n4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);/n5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;/n6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。/n...

【技术特征摘要】
1.一种OCR文档识别方法,其特征在于,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。


2.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集...

【专利技术属性】
技术研发人员:李俊
申请(专利权)人:上海趋研信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1