基于OCR的国际音标切分方法技术

技术编号:9695011 阅读:172 留言:0更新日期:2014-02-21 01:39
本发明专利技术基于OCR的国际音标切分方法,涉及图像切分技术领域。本发明专利技术首先对每一副图像进行二值化处理,目标为0,背景为1,然后用垂直投影算法进行第一次粗切分,得到N个图像区域。计算每个图像区域的宽度W,设定阈值T,对于W>T的图像区域进行进一步处理,接着对图像区域进行列求和,计算出最大值的所有位置,然后分别和待处理图像区域的中心位置进行比较,距离最小的即为二次切分的位置,最后进行再次切分,即可正确切分。利用本发明专利技术,能正确切分国际音标图像,简单而高效,该方法为国际音标OCR的研究奠定了基础。

【技术实现步骤摘要】
基于OCR的国际音标切分方法
本专利技术涉及图像切分
,具体指一种基于OCR的国际音标切分方法。
技术介绍
随着国际化的发展,各个国家之间的交流越来越密切,为了更好的沟通,需要一种统一的语音系统,国际音标就是记录所有语音的统一音标。国际音标的产生是世界优秀文化的结晶,闪烁着世界人民智慧的光芒。然而,如何把文献中国际音标进行数字化存储是一个非常庞大的工程,基本上不可能实现。对这些文献进行数字化最常见的手段是先对文献进行扫描,再使用OCR技术对所得到的数字图片进行OCR识别以得到相应的电子文档。目前,不管是英语还是汉语的OCR识别软件,其技术已经相当成熟,识别率能达到97%以上,市场上也有许多商用软件,而国际音标只在特定专业上才有应用,它的OCR商用价值有限,因此在方面的研究一直处于空白。但国际音标OCR的学术价值却远高于其商业价值,几乎所有语言学文献都使用国际音际进行语音转写。只有国际音标的OCR技术实现突破,海量语言学专业文献资源的数字化工作才成为可能。由于国际音标字体的特殊性,跟英语字符有一定差异,往往出现字符间的粘连,而且国际音标中含有大量的音节,这是英语字符没有的,这使得英语OCR识别系统对国际音标无法正确切分和识别。现有技术方案中,大多数采用纹理特征以及排版特点进行特征分析。通过纹理提取的特征,其过程复杂,需要对整块文字区域进行处理,并且移除文字间空白区域作为特征提取的预处理操作,进而使用Gabor滤波器、小波变换或其他技术进行特征提取,过程较繁琐。通过排版特点提取的特征,虽然可以代表字体的特性,但是对抗噪声性能不高,并需要在非常高的扫描分辨率下获取字体图像,因此可移植性差,不能很好的应用在国际音标字体识别中。近年来,也有一些其他的字体特征提取的方法,但是没有针对国际音标字体识别的具体方法,识别过程耗时长,提取的特征很复杂,识别率低,而且只是针对个别语种进行识别,通用性不高。
技术实现思路
本专利技术的主要目的是解决现有技术存在的缺失和不足,提出一种基于OCR的国际音标切分方法,本方法包括:1.首先对国际音标图像进行预处理,对每一副国际音标图像,用最大类间方差法进行二值化处理,其中目标为0,背景为I。2.国际音标图像进行粗切分,对国际音标图像进行列操作求和,记录切分的空白边界位置。3.对粗切分后的图像区域进行判断是否含有不止一个字符,根据计算出的图像区域和国际音标的平均宽度最大宽度作比较,判断是否含有不止一个字符。4.对含有多个字符的图像区域进行切分,找出需要进一步出的图像区域,再次进行列操作,找出最佳切分位置,进行再次切分。本专利技术专利申请,采用基于OCR的国际音标切分方法,简单而高效,能正确切分国际音标图像,对国际音标OCR的研究起到了重要的作用。【附图说明】图1基于OCR的国际音标切分方法流程框图;图2本专利技术实施例中通过阈值化区分的国际音标图像;图3本专利技术实施实施例中粗切分后得到的图像;图4本专利技术实施实施例中未能正确切分的图像区域;图5本专利技术实例中对进一步处理切分后的图像。【具体实施方式】以下结合附图和实施例对本专利技术进一步描述本专利技术的实验测试是在CPU为Intel (R) Core (TM) 3.40GHz的电脑上完成,Matlab的版本为 MatlabR2011b。下面按附图1的流程框图详细给出本专利技术技术方案中所涉及的各个步骤的细节作出说明:步骤1:国际音标图像进行预处理的步骤包括:2.1对于国际音标图像,用最大类间方差法(大津法)求出最佳阈值,设该阈值为U,如式:u = graythresh (I)(1)其中,graythresh函数自动获得一个合适的阈值。2.2把小于u的像素点的像素值赋为1,大于u的像素值赋为0,得到二值化图像,其中目标为0,背景为1,如式:if (I > u), I = 0; else, I = 1.(2)步骤2:国际音标图像的粗切分的步骤包括:2.1对国际音标图像进行列操作求和,如式:(y, x) = size (I)(3)本文档来自技高网
...

【技术保护点】
一种基于OCR的国际音标切分方法,其特征在于,包括以下步骤:A.对国际音标图像进行预处理;B.对国际音标图像进行粗切分;C.对粗切分后的图像区域进行判断;D.对含有不止一个字符的图像区域进行切分。

【技术特征摘要】
1.一种基于OCR的国际音标切分方法,其特征在于,包括以下步骤:A.对国际音标图像进行预处理;B.对国际音标图像进行粗切分;C.对粗切分后的图像区域进行判断;D.对含有不止一个字符的图像区域进行切分。2.如权利要求1所述的基于OCR的国际音标切分方法,其特征在于,所述A.对国际音标图像进行预处理,包括步骤: A.1对每个国际音标图像,用最大类间方差法计算出该图像的阈值u ; A.2把小于u的像素点的像素值赋为1,大于u的像素值赋为0,得到二值化图像,其中目标为0,背景为I。3.如权利要求1所述的基于OCR的国际音标切分方法,其特征在于,所述B.对国际音标图像进行粗切分,包括步骤: B.1对国际音标图像进行列操作求和; B.2找出空白边界进行粗切分; B.3保存切分后的所有图像区域,包含记录切分的空白边界位置。4.如权利要求1所述的基于OCR的国际音标切分算法,其特征在于,所述C.对粗切分后的图像区域进行判断,包括步骤: C.1通过至少20次测试数据统计出国际音标图像的平均宽度和最大宽度; C.2通过步骤B,找出粗切分后所有图像区域,计算出每个图像区域的宽度; C.3用计算出的图像区域和国际音标图像的平均宽度,与最大宽度作比较,根据比较结果判断该图像区域是否含有不止一个字符,如果没有的话,则被正确的切分开; C.4如果含有不止一个字符,则对该图像区域进一步处理。5.如权利要求1所述的基于OCR的国际音标切分方法,其特征在于,所述D.对含有不止一个字符的图像区域进行切分,包括步骤: D.1找出步骤C.4中需要进一步处理图像区域; D.2对每个图像区域进行列操作求和,找出其中的最大值以及该最大值的所有位置; D.3把最大值的所有位置分别和图像区域的中心位置进行比较,距离最小的即为二次切分的位置; D.4进行再次切分。6.如权利要求1、2所述的基于OCR的国际音标切分方法,其特征在于,所述A.对国际音标图像进行预处理的步骤还包括: A.1.1对每个国际音标图像,用最大类间方差法计算出该图像的阈值U, 如式: u = grayt...

【专利技术属性】
技术研发人员:黄继风邱立松陈洁潘晓声
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1