梵文天城体印刷字符拉丁转写图像识别方法技术

技术编号：15502159 阅读：71 留言：0更新日期：2017-06-03 23:11

本发明专利技术公开了一种梵文天城体印刷字符拉丁转写图像识别方法，包括：(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，得到若干梵文天城体印刷字符块；(2)对得到的梵文天城体印刷字符块进行识别，得到梵文天城体印刷字符块对应的特征向量；(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符。本发明专利技术实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换，且准确度高，基本达到100％正确率。本发明专利技术所用的图像识别算法方便易行，效率高。本发明专利技术提供的技术方案易于实现，适用于实际文献研究应用。

Image recognition method for Devanagari transliteration of printed characters

The invention discloses a method of image recognition, a Devanagari transliteration of printed characters include: (1) to scan contains Devanagari printing character images, characters of vertical maximum blank space for Devanagari character segmentation based on block printing, some Devanagari printing blocks of characters; (2) to identify Devanagari printing character blocks the feature vector Devanagari characters corresponding to the printing block; (3) comparing the feature vector feature vector and the standard Latin characters, according to the results, the Devanagari printing blocks of characters into Latin characters recognition. The invention realizes the Devanagari noise free printing character image is directly transformed into corresponding Latin characters, and the accuracy is high, basically reached the correct rate of 100%. The image recognition algorithm used by the invention is convenient and efficient. The technical proposal provided by the invention is easy to realize, and is suitable for practical document research and application.

全部详细技术资料下载

【技术实现步骤摘要】
梵文天城体印刷字符拉丁转写图像识别方法
本专利技术属于计算机文字图像识别领域，具体涉及一种梵文天城体无噪声印刷字符拉丁转写图像识别方法。
技术介绍
梵文不仅是一种优美的语言，而且更具有细密完整的变位系统，这已经引起了现代科学家的极大兴趣。正是因为梵文具有完善的语法规则，很适合用计算机来处理。利用现在计算机技术带来的便利，可以促进我们对梵文文献的学习利用，加速佛经的梵汉对比研究。作为梵文佛典计算机识别研究的第一步需要实现对佛典文本的数字化和自动化识别，解决信息处理系统中手动输入效率低这一关键问题，可以节省大量的识别转写人力工作，这是文献数字化过程中极为耗时的过程。随着计算机技术的迅速发展，计算机文字识别不断取得新的进展，极大提高了人类处理文字信息的能力。文字识别包括数字字符识别、文字字符识别，由于数字字符识别和英文字符识别难度相对不大，目前已经研究得比较充分，识别率也比较高。然而梵文字符由于其文字结构的复杂性，字符识别比较困难，因此梵文字符的图像识别研究相对较少。由于梵文字符的复杂性不易进行后续研究，通常需要将其转换为拉丁字符，方便后续的分词和释义，因而实现从梵文字符图像到拉丁字符的直接转换能够大大提高梵文文献的处理效率，能够很大程度加速翻译进程，具有重要的意义。
技术实现思路
本专利技术提供了一种梵文天城体无噪声印刷字符拉丁转写图像识别方法，实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换，正确率高，能够显著提高梵文文献的处理效率。一种梵文天城体无噪声印刷字符拉丁转写图像识别方法，包括如下步骤：(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于...
梵文天城体印刷字符拉丁转写图像识别方法

【技术保护点】
一种梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，包括如下步骤：(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，得到若干梵文天城体印刷字符块；(2)对得到的梵文天城体印刷字符块进行识别，得到梵文天城体印刷字符块对应的特征向量；(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符。

【技术特征摘要】
1.一种梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，包括如下步骤：(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，得到若干梵文天城体印刷字符块；(2)对得到的梵文天城体印刷字符块进行识别，得到梵文天城体印刷字符块对应的特征向量；(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符。2.根据权利要求1所述的梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，步骤(1)中，对所述字符图片进行梵文天城体印刷字符块分割的方法为：(1-1)对所述字符图片进行扫描后，识别出当前梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域；(1-2)同时识别出该梵文天城体印刷字符的连接符；(1-3)利用在垂直于连接符的方向上最大空白区域对得到的文字区域进行分割，分割出所述梵文天城体印刷字符块。3.根据权利要求2所述的梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，步骤(1-3)中，对文字区域进行分割时，分别对连接符两侧的文字区域进行分割。4.根据权利要求2所述的梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，步骤(2)中，利用九宫格或田字格的方法对梵文天城...

【专利技术属性】
技术研发人员：刘松柏，
申请(专利权)人：杭州佛学院，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人