用于图像文字识别的字符切分方法技术

技术编号：15502162 阅读：146 留言：0更新日期：2017-06-03 23:11

本发明专利技术涉及图像识别处理领域，特别涉及用于图像文字识别的字符切分方法；使用相应的规则条件，逐级的来判断切分后的子图片的切分质量，并对切分后的子图片进行相应的处理，层层筛选和处理的方式，保证子图片的切分质量；为最终的识别率，进一步准备了条件。此外相比于传统的切分方法，本发明专利技术方法在幅值的基础上引入了修正值，将切分位置与字符边缘的距离作为了确定切分点的考虑因素，因此具有更高的准确性，而且当遇到特殊结构字符时出现多个较小值，或者极值点时，通过本公式可以快速的找出最优化的切分点，增加了切分的准确性，提高了切分的效率；对粘连字符的切分效果更好。

Character segmentation method for image character recognition

The present invention relates to image processing field, especially relates to a character segmentation method for image character recognition; use the corresponding rules and conditions, step by step to determine the segmentation of sub images segmentation quality, and deal with the segmentation of sub images, layers of screening and processing, to ensure the quality of sub image segmentation; as the final recognition rate, further preparation conditions. In addition, compared with the traditional segmentation method, the method of the invention in amplitude is introduced based on the corrected value, segmentation position and character edge distance as determined considering the segmentation points, so it has higher accuracy, but when faced with a special structure character when multiple smaller values, or extreme points, by this formula can quickly find the optimal cut-off point, increase the segmentation accuracy, improve the segmentation efficiency; better segmentation effect on adhesion character.

全部详细技术资料下载

【技术实现步骤摘要】
用于图像文字识别的字符切分方法
本专利技术图像识别领域，特别涉及用于图像文字识别的字符切分方法。
技术介绍
随着社会的发展和科技的进步，人类创造的知识正以指数级的数量增加，在电子书籍出现之前，大部分的知识是以图书的方式进行传承，中华上下五千年，产生了大量优秀书籍，这些书籍在历史的长河中，或多或少都遭到了不同程度的损坏，因此对这些书籍进行数字化存储迫在眉睫；在图书管理领域，书籍内容的快速搜索对于快速定位书籍很有帮助，而由于书籍数量太多，加上早期印刷的图书没有作者的电子文稿，因此纸质书籍的电子化很有必要。光学字符识别软件就是处理这种纸质图书到电子文档转化的利器，其主要利用大量的字符样本，经过复杂网络的学习，生成相应的模型文件，从而达到识别图片中字符的目的。光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影法找到两个文字之间的分界线，根据分界线将文字切分开来。然而当图像中的文字之间具有粘连，且图像中包含左右结构的汉字时，简单的投影方法就很难实现较好的切分效果；正是因为这个原因使得切分一直是OCR识别的难点，切分的质量将直接影响到文字的识别效果。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足，提供用于图像文字识别的字符切分方法，使用投影法确定初始切分位置进行切分，对经过切分后的子图片进行判断和再次切分和合并，切分点的确定在字符图片列投影...

【技术保护点】
用于图像文字识别的字符切分方法，其特征在于，包含以下实现过程：使用投影法找出文字字符图片的初始切分位置，根据初始切分位置将待识别图像片切分成初始子图片序列；对于切分后宽度L＞M*行高h的子图片进行再次切分，切分位置根据以下公式进行确定：f(x)＝g(x)t(x)

【技术特征摘要】
1.用于图像文字识别的字符切分方法，其特征在于，包含以下实现过程：使用投影法找出文字字符图片的初始切分位置，根据初始切分位置将待识别图像片切分成初始子图片序列；对于切分后宽度L＞M*行高h的子图片进行再次切分，切分位置根据以下公式进行确定：f(x)＝g(x)t(x)式中f(x)为幅值，x为列投影点在行方向上的坐标，h为当前字符的行高，g(x)为修正值，t(x)为行投影值，当幅值最小时，即为两个字符之间的切割点。2.如权利要求1所述的方法，其特征在于，所述切分过程包含以下实现步骤：(1)使用投影法待识别图像文字进行切分，切分成子图片序列；将其中的数字、字母和标点符号标记出来；(2)对未标记的子图片进行判断：是否满足L≤M*h，L为子图片字符投影的宽度，M为系数，h为行高；对于不满足条件的子图片进行切分，切分位置根据以下公式进行确定：f(x)＝g(x)t(x)重复执行步骤(2)，直到序列中未标记的子图片均满足条件：L≤M*h；(...

【专利技术属性】
技术研发人员：景亮，刘世林，唐涔轩，康青杨，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人