提取满文单词图像中轴线的方法技术

技术编号:19009526 阅读:53 留言:0更新日期:2018-09-22 09:20
提取满文单词图像中轴线的方法,属于文字切分领域,用于解决提高满文切分精度的问题,技术要点是:定位满文单词图像中轴线,检测满文单词图像中轴线宽度,效果是对于满文单词图像中轴线提取,直接影响切分的准确率,为了提供切分准确率,必要的将中轴线提取的精度被提高,因而,将中轴线定位,并检测其宽度,可以将中轴线准确提取。

Method of extracting the axis of Manchu word image

The method of extracting the axis of Manchu word image belongs to the field of character segmentation. It is used to solve the problem of improving the precision of Manchu word segmentation. The main technical points are: locating the axis of Manchu word image and detecting the width of axis in Manchu word image. The effect is to extract the axis of Manchu word image, which directly affects the accuracy of segmentation. In order to provide the accuracy of segmentation, it is necessary to improve the accuracy of the extraction of the central axis. Therefore, the central axis can be accurately extracted by locating the central axis and detecting its width.

【技术实现步骤摘要】
提取满文单词图像中轴线的方法
本专利技术属于文字切分领域,涉及一种提取满文单词图像中轴线的方法。
技术介绍
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
技术实现思路
为了解决提高满文切分精度的问题,本专利技术提出如下技术方案:一种提取满文单词图像中轴线的方法,包括如下步骤:S1.定位满文单词图像中轴线;S2.检测满文单词图像中轴线宽度。作为技术方案的补充:所述步骤S1具体包括:S1.1.对满文单词图像取反,令文字部分的像素值取1,而背景部分的像素值取0;S1.2.使用MATLAB图像处理工具箱的形态学细化函数实现满文单词图像的形态学细化;S1.3.对形态学细化后的满文单词图像,使用霍夫变换以确定细化的中轴线所对应的列坐标,该列坐标作为满文单词图像中轴线的位置,其中,限定霍夫变换搜索直线的角度为θ=90,仅查找竖直方向的直线,并连接相同纵向位置的,间距小于满文单词图像高度且自身长度大于1个像素的直线为一条直线,求出中轴线的中心位置。作为技术方案的补充:所述步骤S2具体包括:S2.1.确定最大游程比例法的搜索区域;S2.2.对满文单词图像在搜索区域内施以最大游程比例法而确定满文单词图像中轴线的宽度;S2.3.由满文单词图像中轴线的中心位置和中轴线的宽度计算中轴线的左边界和右边界。作为技术方案的补充:所述步骤S2.1具体为:最大游程比例法的搜索区域由下述公式规定的范围所确定:其中,sl是限定的搜索范围的左边界,sr是限定的搜索范围的右边界,baseline是中轴线的中心位置,round表示向最近的整数取整,W是满文单词图像的宽度。作为技术方案的补充:所述步骤S2.2的最大游程比例法的步骤:扫描满文单词图像搜索区域单词图像的每一行,并统计连续黑色像素的游程长度和该长度出现的次数,则具有最大出现次数的游程长度就是满文单词图像中轴线的宽度。作为技术方案的补充:由下式计算所述步骤S2.3的中轴线的左边界和右边界;其中:bl是中轴线的左边界,br是中轴线的右边界,baseline是满文单词图像中轴线的中心位置,baseline_width是满文单词图像中轴线的宽度,round表示向最近的整数取整。有益效果:对于满文单词图像中轴线提取,直接影响切分的准确率,为了提供切分准确率,必要的将中轴线提取的精度被提高,因而,将中轴线定位,并检测其宽度,可以将中轴线准确提取。附图说明图1满文部件集构建流程图;图2满文部件分割流程图;图3传统方法满文单词图像中轴线提取错误实例图;图4采用区域限定的最大游程比例法确定满文中轴线宽度的图,其中:(1)最大游程比例法错误实例图、(2)本专利技术限定的搜索范围图、(3)本专利技术方法结果图;图5本专利技术方法中轴线提取效果图;图6满文部件切分流程图;图7满文部件切分结果图,其中:(1)弱分割现象图、(2)弱分割区域经过细切分图、(3)过分割现象图、(4)过分割区域经过合并图、(5)部分分割结果图。具体实施方式从光学字符识别技术的角度分析,满文具有以下特点:(1)根据在单词中位置的不同,满文同一个字母一般有独立形、字头形、字中形和字尾形4种不同形式。满文不同字形的字母共计114个。(2)满文文档同列单词都位于相同的中轴线附近,印刷体满文两列之间的单词基本不会出现交叉的情况,有利于列提取。同一列满文文本中满文单词之间有一定间隔,有利于单词提取。(3)满文单词由一个或多个满文字母竖向中轴线连接组成,同一单词内的字母与字母之间没有空隙。但是字母与字母的相拼处位于满文单词图像中轴线上,可以考虑利用中轴线处的像素特性分割满文字母。(4)部分满文字母具有“一形多字”现象。例如字符,同时是字母a、e和n的字中形,在识别中可根据相邻字母的拼读规则加以区别。(5)部分满文字母具有相同的组成部分。例如字符(字母o的字头形),可以看做是由字符(字母e的字头形)和字符(字母o的字中形)两部分组合而成。因此以满文字母为基本分割单元则容易出现过分割和弱分割的现象。(6)某些字母组合不具备可分性。例如(bo),切分成(字母b)和(字母o)非常困难。基于上述满文的特点,本实施例提出一种以部件重新解构满文单词的思路,以满文部件(以下简称部件)作为分割和识别的基本单元,能够解决以满文字母为基本分割单元导致的过分割和弱分割问题,满文部件集包括满文字母、字母或字母组合的一部分、字母组合等3种来源,构建满文部件集的目的在于减少因分割带来的错误识别,这是因为如果按照字母为基本分割单元,则如前述分析,易出现过分割和弱分割问题,则后续用于识别字母的分类器势必会对过分割和弱分割的部分产生识别错误,甚至不能够识别;而本专利技术(方法)提出的满文部件集,是以分割方法的结果为导向设计构建的,也就是说,常见的过分割(字母或字母组合的一部分)和弱分割(字母组合)不再认为是一种“错误”,而是一种“正确”的分割,因此后续设计的分类器能够识别这些部件,从而减少了因分割错误产生的识别错误等问题。对于满文部件的理解,可以参考与对英文单词的识别进行类比。以英文单词study为例,可以直接识别整词study;也可以把整词切分成s,t,u,d,y等字母,分别识别字母,然后组合成单词study;如果切分成字母难以实现,而切分成部件相对容易,例如,容易切分成:st,u,dy,(其中,st,u,dy都是部件)则识别部件,然后把部件组合成单词,然而,满文由于具有上述特点,其部件的切分并非如举例的英文一样容易,如图1所示,满文部件集的构建流程是:参考满文字母表、中华人民共和国国家标准《信息技术通用多八位编码字符集锡伯文、满文字型》、文献[1-2]中的蒙古文部件集,提出一个包含99个初始部件的满文部件初始集(以下简称为“初始集”),并置每个满文部件的Flag=0。使用满文切分对满文单词图像进行分割,并统计和分析分割结果:若分割后的部件不属于初始集,则将该部件加入初始集,并置该部件的Flag=1;若分割后的部件属于初始部件集,则置对应部件的Flag=1。检查初始集中是否有部件的Flag=0,判断是否有部件在分割结果中从未出现过,若存在该部件则将该部件从初始集中删除。整理并输出满文部件集。满文部件集中共包含部件106个,详见附表1。其中述及的文献[1-2]:[1]HongxiWei,GuanglaiGao.AkeywordretrievalsystemforhistoricalMongoliandocumentimages[J].Internationaljournalondocumentanalysisandrecognition,2014,17(1),33-45.[2]LiangruiPeng,Changs本文档来自技高网...
提取满文单词图像中轴线的方法

【技术保护点】
1.一种提取满文单词图像中轴线的方法,其特征在于,包括如下步骤:S1.定位满文单词中轴线;S2.检测满文单词中轴线宽度。

【技术特征摘要】
1.一种提取满文单词图像中轴线的方法,其特征在于,包括如下步骤:S1.定位满文单词中轴线;S2.检测满文单词中轴线宽度。2.如权利要求1所述的提取满文单词图像中轴线的方法,其特征在于,所述步骤S1具体包括:S1.1.对满文单词图像取反,令文字部分的像素值取1,而背景部分的像素值取0;S1.2.使用MATLAB图像处理工具箱的形态学细化函数实现满文单词图像的形态学细化;S1.3.对形态学细化后的满文单词图像,使用霍夫变换以确定细化的中轴线所对应的列坐标,该列坐标作为满文单词中轴线的位置,其中,限定霍夫变换搜索直线的角度为θ=90,仅查找竖直方向的直线,并连接相同纵向位置的,间距小于满文单词图像高度且自身长度大于1个像素的直线为一条直线,求出中轴线的中心位置。3.如权利要求1所述的提取满文单词图像中轴线的方法,其特征在于,所述步骤S2具体包括:S2.1.确定最大游程比例法的搜索区域;S2.2.对满文单词图像在搜索区域内施以最大游程比例法而确定满文单词图像中轴线的宽度;S2.3.由满文单词图...

【专利技术属性】
技术研发人员:郑蕊蕊李敏贺建军许爽吴宝春卢海涛
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1