一种文字方向混排的自动化OCR识别方法技术

技术编号：25990446 阅读：28 留言：0更新日期：2020-10-20 18:58

本发明专利技术属于OCR识别技术领域，提供了一种文字方向混排的自动化OCR识别方法，包括：S101：识别原始文件各顶点坐标；S102：识别出文字区域以及文字区域初始坐标和对角坐标；S103：对识别出的文字区域进行色彩填充；S104：对旋转后的文件进行OCR识别，记录识别的文字，识别出旋转后的文字区域以及旋转后文字区域初始坐标和对角坐标；S105：判断旋转次数N是否达到最大值(360/A)；S106：输出识别的文字，通过原始文件的各顶点坐标绘制原始文件文本区域矩形框，并还原文字在原始文件中的位置。本发明专利技术的一种文字方向混排的自动化OCR识别方法，具有大幅度减少由于OCR模型的限制导致的漏识。

全部详细技术资料下载

【技术实现步骤摘要】
一种文字方向混排的自动化OCR识别方法
本专利技术涉及OCR识别
，具体涉及一种文字方向混排的自动化OCR识别方法。
技术介绍
近几年，随着大数据技术与人工智能技术的飞速发展，OCR识别技术也得到了长足进步。基于大数据样本与人工智能技术的基础上，OCR识别，特别是印刷体材料的OCR识别，正常的印刷体文字识别率已经非常接近于100％。但是，在真正的工程应用领域或一些特定的场景下，对OCR的识别也提出了一些挑战。例如，手机拍摄或扫描仪扫描时，方向没控制好，造成图片整体旋转90度，在文字进行大幅度的倾斜情况下，例如，倾斜的角度有90度，180度或270度等就需要特殊的处理，否则，侧向卧倒或倒立的文字很难通过OCR正确识别。目前常见的处理方法包括：增加各个方向的文字样本，另外，训练90度，180度和270度等不同的样本模型，识别的时候，用不同的模型来进行处理，这种方法带来的问题是：1、前期需要构建大量的样本，成本比较高；2、如果针对不同的文字方向训练得到不同的模型，在进行OCR识别的时候，就需要选择不同的模型进行识别文字，选择不同模型进行识别的过程将引起延时较大的问题；3、如果把所有方向的文字都训练到一个模型中去，则会造成模型极为庞大，系统的OCR识别效率大幅度下降。
技术实现思路
针对现有技术中的缺陷，本专利技术提供的一种文字方向混排的自动化OCR识别方法，针对混排的原始文件而言，具有大幅度减少由于OCR模型的限制导致的漏识。为了解决上述技术问题，本

【技术保护点】
1.一种文字方向混排的自动化OCR识别方法，其特征在于，包括以下步骤：/nS101：识别原始文件各顶点坐标，设定原始文件的旋转单位A，初始化原始文件的旋转次数N＝0，旋转次数N＝{1，2，...，(360/A)}；/nS102：识别出文字区域以及文字区域初始坐标(X

【技术特征摘要】
1.一种文字方向混排的自动化OCR识别方法，其特征在于，包括以下步骤：
S101：识别原始文件各顶点坐标，设定原始文件的旋转单位A，初始化原始文件的旋转次数N＝0，旋转次数N＝{1，2，...，(360/A)}；
S102：识别出文字区域以及文字区域初始坐标(X0，Y0)和对角坐标(X1，Y1)，并记录识别的文字；
S103：对识别出的文字区域进行色彩填充，并对原始文件进行A角度旋转，旋转次数N加1，记录原始文件的累计旋转角度为A*N；
S104：对旋转后的文件进行OCR识别，记录识别的文字，识别出旋转后的文字区域以及旋转后文字区域初始坐标(M0N，N0N)和对角坐标(M1N，N1N)；
S105：判断旋转次数N是否达到最大值(360/A)，如果是，进行步骤S106；否则，重复进行步骤S103；
S106：输出识别的文字，通过原始文件的各顶点坐标绘制原始文件文本区域矩形框，并根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N，N0N)和对角坐标(M1N，N1N)还原文字在原始文件中的位置。

2.根据权利要求1所述的一种文字方向混排的自动化OCR识别方法，其特征在于，所述步骤S106中根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N，N0N)和对角坐标(M1N，N1N)还原文字在原始文件中位置，包括以下步骤：
S10601：根据原始文件的不同旋转单位A*N建立旋转后初始坐标(M0N，N0N)与初始坐标(X0，Y0)之间的函数关系S1和S2，其中(M0N，N0N)＝S1(X0)和(M0N，N0N)...

【专利技术属性】
技术研发人员：付艳，
申请(专利权)人：冠群信息技术南京有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人