一种面向多行字符OCR识别结果的行归类后处理方法技术

技术编号：37145349 阅读：53 留言：0更新日期：2023-04-06 21:56

本发明专利技术公开了一种面向多行字符OCR识别结果的行归类后处理方法，将OCR引擎识别确定的文本包围框信息作为输入，采用降维聚类的思想将非结构化字符归类为不同的行，同时具备对字符行归类失效概率较高的倾斜文本的高精度行归类能力，从而将OCR识别结果结构化。本发明专利技术可以对OCR引擎识别结果进行有效的后处理判断校正，并提高倾斜文本的识别结果准确率。并提高倾斜文本的识别结果准确率。并提高倾斜文本的识别结果准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向多行字符OCR识别结果的行归类后处理方法

[0001]本专利技术属于字符识别
，具体涉及一种字符OCR识别结果的行归类后处理方法。

技术介绍

[0002]在字符识别领域，一般的文本都是结构化的，严格按照行排列的准则，OCR识别结果一般也会按行输出在一起。但是当文本倾斜时，OCR的识别结果会出现分行差错。非结构化文本中文字行排列比较随意，特别是当OCR识别图像存在倾斜情况时，会存在同一行字符识别成多行字符或者不同行字符识别串行的问题。文本没有规则行结构、背景复杂、在图像中的位置随机、字体难以识别等问题，都影响OCR的识别结果所属行，影响识别准确率和规整性。OCR识别在满足单个字符识别成功的情况下，也必须要满足输出字符的行排列规整，才不会影响最终的所有识别结果。但是，现有的OCR识别引擎进行了大量的前处理和识别算法准确率提高的工作，仍然缺乏对识别结果的高效准确的后处理判断校正机制，导致在倾斜文本识别时经常出现不同行字符串行的问题。因此，针对以上问题，需要对OCR识别的字符结果进行行归类后处理，在不依赖人工参与的情况下，对OCR引擎识别输出的字符排列判断校正，并对字符行输出有误的文本进行自动归类校正，输出按行按次序排列的正确字符结果。这对工业领域中拥有多行字符编码的零件快速准确的识别具有重要的意义，是一种保证识别准确率的必不可少的手段，是工业智能化和自动化生产的质量保证。
[0003]中国专利公开CN111401371A公开了一种文本检测识别方法、系统及计算机设备，针对倾斜旋转的待识别图片，通过构建旋...

【技术保护点】

【技术特征摘要】
1.一种面向多行字符OCR识别结果的行归类后处理方法，其特征在于，包括如下步骤：步骤1：给定OCR识别结果{O＝S1,
…
,S
i
,
…
,S
m
}，共m个字符，得到所有字符的包围框原始数据；第i，1≤i≤m个字符的包围框数据表示为：左上角点坐标P
i
(x
i
,y
i
)、框宽l
i
和框高h
i
；OCR识别图像的左上角为坐标原点O(0,0)；输入待识别的文本总行数Sum，记Line＝1；步骤2：步骤2：遍历O中所有字符的坐标点的y坐标，取y最小值对应的点为初始点，记为初始点P1(x1,y1)；步骤3：以X轴方向的单位向量为初始向量A＝(1,1)；以P1为向量起点，除P1外的剩余点P
j
,2≤j≤m为向量终点，构建其它向量B
j
＝(x
j
‑
x1,y
j
‑
y1)，得到向量集合E＝{A,B2,
…
,B
j
,
…
,B
m
}；步骤4：根据式(1)计算初始向量A与其它向量B
j
之间的夹角θ
j
，将二维包围框原始数据降维为一维向量角度数据集合G＝{θ2,
…
,θ
j
,
…
,θ
m
}；步骤5：采用式(2)对数据集G进行非线性log归一化，得到归一化结果G
′
＝{θ
′2,
…
,θ
′
j
,
…
,θ
′
m
}；其中θ
max
为集合G中θ
j
最大值，表示集合G中θ
j
最小值向下取整；步骤6：采用K
‑
Means聚类算法将归一化后的样本数据G
′
的相似度划分为k个类别...

【专利技术属性】
技术研发人员：王淑侠，张杰，何卫平，李江红，吴世鑫，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人