当前位置: 首页 > 专利查询>杭州佛学院专利>正文

梵文天城体印刷字符拉丁转写图像识别方法技术

技术编号:15502159 阅读:71 留言:0更新日期:2017-06-03 23:11
本发明专利技术公开了一种梵文天城体印刷字符拉丁转写图像识别方法,包括:(1)对包含梵文天城体印刷字符的字符图片进行扫描,基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,得到若干梵文天城体印刷字符块;(2)对得到的梵文天城体印刷字符块进行识别,得到梵文天城体印刷字符块对应的特征向量;(3)将得到的特征向量与标准拉丁字符的特征向量进行对比,根据对比结果,将识别的梵文天城体印刷字符块转为拉丁字符。本发明专利技术实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换,且准确度高,基本达到100%正确率。本发明专利技术所用的图像识别算法方便易行,效率高。本发明专利技术提供的技术方案易于实现,适用于实际文献研究应用。

Image recognition method for Devanagari transliteration of printed characters

The invention discloses a method of image recognition, a Devanagari transliteration of printed characters include: (1) to scan contains Devanagari printing character images, characters of vertical maximum blank space for Devanagari character segmentation based on block printing, some Devanagari printing blocks of characters; (2) to identify Devanagari printing character blocks the feature vector Devanagari characters corresponding to the printing block; (3) comparing the feature vector feature vector and the standard Latin characters, according to the results, the Devanagari printing blocks of characters into Latin characters recognition. The invention realizes the Devanagari noise free printing character image is directly transformed into corresponding Latin characters, and the accuracy is high, basically reached the correct rate of 100%. The image recognition algorithm used by the invention is convenient and efficient. The technical proposal provided by the invention is easy to realize, and is suitable for practical document research and application.

【技术实现步骤摘要】
梵文天城体印刷字符拉丁转写图像识别方法
本专利技术属于计算机文字图像识别领域,具体涉及一种梵文天城体无噪声印刷字符拉丁转写图像识别方法。
技术介绍
梵文不仅是一种优美的语言,而且更具有细密完整的变位系统,这已经引起了现代科学家的极大兴趣。正是因为梵文具有完善的语法规则,很适合用计算机来处理。利用现在计算机技术带来的便利,可以促进我们对梵文文献的学习利用,加速佛经的梵汉对比研究。作为梵文佛典计算机识别研究的第一步需要实现对佛典文本的数字化和自动化识别,解决信息处理系统中手动输入效率低这一关键问题,可以节省大量的识别转写人力工作,这是文献数字化过程中极为耗时的过程。随着计算机技术的迅速发展,计算机文字识别不断取得新的进展,极大提高了人类处理文字信息的能力。文字识别包括数字字符识别、文字字符识别,由于数字字符识别和英文字符识别难度相对不大,目前已经研究得比较充分,识别率也比较高。然而梵文字符由于其文字结构的复杂性,字符识别比较困难,因此梵文字符的图像识别研究相对较少。由于梵文字符的复杂性不易进行后续研究,通常需要将其转换为拉丁字符,方便后续的分词和释义,因而实现从梵文字符图像到拉丁字符的直接转换能够大大提高梵文文献的处理效率,能够很大程度加速翻译进程,具有重要的意义。
技术实现思路
本专利技术提供了一种梵文天城体无噪声印刷字符拉丁转写图像识别方法,实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换,正确率高,能够显著提高梵文文献的处理效率。一种梵文天城体无噪声印刷字符拉丁转写图像识别方法,包括如下步骤:(1)对包含梵文天城体印刷字符的字符图片进行扫描,基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,得到若干梵文天城体印刷字符块;(2)对得到的梵文天城体印刷字符块进行识别,得到梵文天城体印刷字符块对应的特征向量;(3)将得到的特征向量与标准拉丁字符的特征向量进行对比,根据对比结果,将识别的梵文天城体印刷字符块转为拉丁字符。作为优选,步骤(1)中,对所述字符图片进行梵文天城体印刷字符块分割的方法为:(1-1)对所述字符图片进行扫描后,识别出当前梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域;(1-2)同时识别出该梵文天城体印刷字符的连接符;(1-3)利用在垂直于连接符的方向上最大空白区域对得到的文字区域进行分割,分割出所述梵文天城体印刷字符块。本专利技术中,对于文字区域和空白区域的识别,可通过读取像素点的像素值确定;常见的字符图片为黑白字符图片,可直接进行识别,像素值(灰度值)高于某一特定值的可判定为文字区域内的像素点,对于低于某一特定值的可判定为空白区域的像素点。对于彩色的字符图片,我们可以对图片进行预处理,将图片进行灰度化和二值化等,转化为计算机容易识别的图样,以加快计算速度和效率。一般情况下,梵文天城体印刷字符的连接符为水平的横线结构。相邻两个梵文天城体印刷字符块的分割位置在字符块间垂直方向字符空白最大的地方,本专利技术得到的字符块有完全分开的字符块和连接在一起的字符块。完全分开的字符块有Anusvāra符号、Visarga符号、Avagraha符号、元音上标符号等,连接在一起的字符块有叠加辅音字符群、垂直方向有重叠的字符群等。两个相邻梵文天城体印刷字符块之间的分界线位于所述最大空白区域处。这里说到的最大空白区域,一般是指在垂直于连接符的方向长空白区域的总的高度值。该高度值一般与连接符所在的位置,以及梵文天城体印刷字符的行宽度有关,一般为连接符距离该行宽边界之间的距离。作为优选,步骤(1-3)中,对文字区域进行分割时,分别对连接符两侧的文字区域进行分割。即,对其中一侧的文字区域独立的进行分割。作为优选,步骤(2)中,利用九宫格或田字格的方法对梵文天城体印刷字符块进行识别。作为进一步优选,步骤(2)中,以梵文天城体顶部为上,对于位于连接符下方的梵文天城体印刷字符块采用九宫格方法进行识别,对于位于连接符上方的梵文天城体印刷字符块采用田字格方法进行识别。所述的九宫格编码为对字符块纵横各分为等长度的三部分,田字格编码为对字符块纵横各分为等长度的两部分。所述的九宫格编码为对等分的九部分进行像素统计形成九维特征向量,田字格编码为对等分的四部分进行像素统计形成四维维特征向量。即作为优选,利用所述九宫格方法进行识别的过程为:利用三组横线和三组竖线,将梵文天城体印刷字符块均为九份,求取每份的像素值,归一化,得到梵文天城体印刷字符块的九维特征向量。作为优选,利用所述田字格方法进行识别的过程为:利用两组横线和两组竖线,将梵文天城体印刷字符块均为四份,求取每份的像素值,归一化,得到梵文天城体印刷字符块的四维特征向量。作为优选,步骤(3)中,采用最小方差匹配法进行对比,即具有最小方差结果的标准拉丁字符即为当前梵文天城体印刷字符对应的拉丁字符。作为优选,步骤(3)中,所述的拉丁字符转换基于字符块特征向量与对应拉丁字符集的特征向量进行比对,利用最小差异匹配完成拉丁字符识别转换,即:其中xn为九维特征向量或者四维特征向量中的某一特征向量值,x0n为标准拉丁字符集的九维特征向量或者四维特征向量的某一特征向量值。作为优选,所述标准拉丁字符的特征向量是由已知的梵文天城体印刷字符计算得到。本专利技术相对于现有梵文字符图像识别方法具有如下优点:(1)本专利技术实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换,且准确度高,基本达到100%正确率。(2)本专利技术所用的图像识别算法方便易行,效率高。(3)本专利技术提供的技术方案易于实现,适用于实际文献研究应用。附图说明图1为本专利技术的基于图像识别的梵文天城体-拉丁字符转换方法的流程图;图2为实施例1中待识别的梵文印刷字符图片;图3为实施例2中待识别的梵文印刷字符图片;图4为实施例3中待识别的梵文印刷字符图片。具体实施方式下面结合实施例对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。参考图1,图2:一种基于图像识别的梵文天城体-拉丁字符转换方法,包括如下步骤:(1)基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,具体为:(1-1)对印刷有待转化的梵文天城体印刷字符的梵文印刷字符图片进行扫描,识别梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域;该步骤可以采用逐行扫描的方式进行扫描;其中的识别过程可以通过对比每个像素点的像素值大小或者灰度值大小进行识别;为便于像素点的识别,对于彩色梵文天城体印刷字符的梵文天城体印刷字符图片,可以先进行灰度化和二值化等预处理,得到对应的灰度图像,对于灰度值为0的区域可定义为空白区域(图2中白色对应的区域),对于灰度值为255的点可以定义为文字区域(图2中黑色对应的部分);(1-2)同时识别出该梵文天城体印刷字符的水平连接符,其中水平连接符为横向水平设置的横线段结构,可通过像素值大小识别水平连接符的位置、宽度和长度;我们在扫描和识别时,可设定水平连接符的方向为x轴方向(或水平方向),垂直于连接符的方向可设定为y轴方向(或者垂直方向);(1-3)对得到的文字区域进行分割,分割出一个或多个梵文天城体印刷字符块,分割方法为:对于连接符上面和下面的文字区域和空白区域分别进行判断;比如,先对连接符下面提取的那些在y轴方向上尺寸最长(本文档来自技高网...
梵文天城体印刷字符拉丁转写图像识别方法

【技术保护点】
一种梵文天城体印刷字符拉丁转写图像识别方法,其特征在于,包括如下步骤:(1)对包含梵文天城体印刷字符的字符图片进行扫描,基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,得到若干梵文天城体印刷字符块;(2)对得到的梵文天城体印刷字符块进行识别,得到梵文天城体印刷字符块对应的特征向量;(3)将得到的特征向量与标准拉丁字符的特征向量进行对比,根据对比结果,将识别的梵文天城体印刷字符块转为拉丁字符。

【技术特征摘要】
1.一种梵文天城体印刷字符拉丁转写图像识别方法,其特征在于,包括如下步骤:(1)对包含梵文天城体印刷字符的字符图片进行扫描,基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,得到若干梵文天城体印刷字符块;(2)对得到的梵文天城体印刷字符块进行识别,得到梵文天城体印刷字符块对应的特征向量;(3)将得到的特征向量与标准拉丁字符的特征向量进行对比,根据对比结果,将识别的梵文天城体印刷字符块转为拉丁字符。2.根据权利要求1所述的梵文天城体印刷字符拉丁转写图像识别方法,其特征在于,步骤(1)中,对所述字符图片进行梵文天城体印刷字符块分割的方法为:(1-1)对所述字符图片进行扫描后,识别出当前梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域;(1-2)同时识别出该梵文天城体印刷字符的连接符;(1-3)利用在垂直于连接符的方向上最大空白区域对得到的文字区域进行分割,分割出所述梵文天城体印刷字符块。3.根据权利要求2所述的梵文天城体印刷字符拉丁转写图像识别方法,其特征在于,步骤(1-3)中,对文字区域进行分割时,分别对连接符两侧的文字区域进行分割。4.根据权利要求2所述的梵文天城体印刷字符拉丁转写图像识别方法,其特征在于,步骤(2)中,利用九宫格或田字格的方法对梵文天城...

【专利技术属性】
技术研发人员:刘松柏
申请(专利权)人:杭州佛学院
类型:发明
国别省市:浙江,33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1