一种针对任意角度、任意形状文本的OCR识别方法及系统技术方案

技术编号：37976628 阅读：21 留言：0更新日期：2023-06-30 09:51

本发明专利技术提供一种针对任意角度、任意形状文本的OCR识别方法及系统，涉及文字识别领域，所述方法包括：获取若干字符图像，基于五元组的表示形式对字符图像进行标注处理和校准处理，以形成图像训练集；构造字符识别神经网络模型，基于图像训练集训练字符识别神经网络模型；基于训练之后的字符识别神经网络模型预测待识别字符图像中字符的位置信息以及类别信息，所述位置信息包括坐标信息、形状信息以及角度信息；基于待识别字符图像中字符的位置信息以及类别信息进行字符连接，以输出任意角度、任意形状的文本识别结果。本发明专利技术解决了现有OCR识别技术无法对任意角度、任意形状的文本进行文字识别，容易出现误识别、漏识别，甚至无法识别的问题。无法识别的问题。无法识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对任意角度、任意形状文本的OCR识别方法及系统

[0001]本专利技术涉及文字识别领域，具体而言，涉及一种针对任意角度、任意形状文本的OCR识别方法及系统。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)是对文本图像进行分析处理，获取文字及版面信息的过程。
[0003]OCR识别技术主要分为检测和识别两个部分：一是检测图像中哪些区域存在文字；二是识别区域中的具体文字是什么。目前的OCR识别技术在扫描文档和路牌街景两个场景的文字识别已趋向成熟，这两种场景中均存在文字方向呈正向、顺序的文字可从左至右依次读取的共同点。目前针对这两个场景，OCR技术已经能达到令人满意的识别准确率。但是对于弧形文本或拍摄角度与文字朝向存在一定角度偏移等其他场景时，即针对任意角度、任意形状的文本，已有的OCR识别技术常常会出现误识别、漏识别，甚至无法识别的情况。

技术实现思路

[0004]本专利技术提供一种OCR识别模型训练方法、OCR文本识别方法及系统，解决现有O...

【技术保护点】

【技术特征摘要】
1.一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，所述方法包括以下步骤：获取若干字符图像，并且基于五元组的表示形式对字符图像进行标注处理和校准处理，以获取包含位置信息和类别信息的图像训练集；构造字符识别神经网络模型，并且基于图像训练集训练字符识别神经网络模型；基于训练之后的字符识别神经网络模型预测待识别字符图像中字符的位置信息以及类别信息，所述位置信息包括坐标信息、形状信息以及角度信息；基于待识别字符图像中字符的位置信息以及类别信息进行字符连接，以输出任意角度、任意形状的文本识别结果。2.根据权利要求1所述的一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，对字符图像进行标注处理的流程如下：使用具有顺序的四个标记点标记字符图像中所有字符，四个标记点分别位于字符的左上角点(x1,y1)、右上角点(x2,y2)、右下角点(x3,y3)、左下角点(x4,y4)，以形成四边形，并且对所述字符的类别进行标记；使用具有顺序的若干线段标记字符图像中每条语句中所有字符，所述线段分别位于相邻字符的中心点之间。3.根据权利要求2所述的一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，对字符图像进行校准处理的流程如下：计算四个标记点的平均偏移量(dx,dy)，并且基于平均偏移量(dx,dy)对四个标记点进行坐标校准，以形成标准矩形框；其中，四个角点坐标的平均偏移量表示为：其中，四个角点坐标的平均偏移量表示为：其中，标准矩形框的坐标表示为：将标准矩形框坐标表示转化为五元组表示，所述标准矩形框的五元组表示为：[x,y,w,h,α]，x表示标准矩形框的中心点横坐标，y表示标准矩形框的中心点纵坐标，w表示标准矩形框的长度，h表示标准矩形框的高度，α表示标准矩形框的角度；其中，五元组表示为：
其中，转换角度f
α
为：4.根据权利要求1所述的一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，基于图像训练集训练字符识别神经网络模型的流程如下：将标记处理和校准处理之后的字符图像输入字符识别神经网络模型；采用随机梯度下降的方式训练字符识别神经网络模型至收敛。5.根据权利要求3所述的一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，使用训练之后的字符识别神经网络模型预测待识别字符图像中字符的位置信息以及类别信息的流程如下：将待识别字符图像输入训练之后的字符识别神经网络模型；字符神经网络模型输出若干标准矩形框的坐标以及字符的类别，以形成边框集合S。6.根据权利要求5所述的一种针对任意角度、任意形状文本的OCR识别方法，其特征在于，基于待识别字符图像中字符的坐标位置以及类别信息进行字符连接，以输出文字识别结果的流程如下：从边框集合S任意取出一个标准矩形框B
i
，并且依次计算标准矩形框B
i
与若干剩余标准矩形框B
j
的距离以及阅读夹角α
i,j
；从若干剩余标准矩形框B
j
中选取距离最小的标准矩形框B
i,min
；若标准矩形框B
i,min
的阅读夹角小于固定阈值θ1，则判定标准矩形框B
i,min
在标准矩形框B
i
之后，若阅读夹角大于固定阈值θ2，则判定标准矩形框B
i,min
在标准矩形框B
i
之后，且标准矩形框B
i,min
的角度调整为相反角度，即α...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：成都数之联科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人