基于满文部件切分的印刷体满文识别方法技术

技术编号:18941933 阅读:40 留言:0更新日期:2018-09-15 11:21
基于满文部件切分的印刷体满文识别方法,属于文字识别领域,为了解决提高满文切分精度的问题,要点是包括如下步骤:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词,效果是识别前,以满文部件作为切分单元,从而能够极大降低对满文切分过程中的过切分和弱切分现象发生。

Printed Manchu text recognition method based on Manchu component segmentation

Printed Manchu recognition method based on Manchu component segmentation belongs to the field of character recognition. In order to improve the accuracy of Manchu segmentation, the main points include the following steps: S1. segmentation of Manchu components; S2. normalization of Manchu components; S3. feature extraction and fusion of Manchu components; S4. Manchu component recognition; S5. Manchu components. The effect of reorganizing and recognizing Manchu words is to use Manchu parts as segmentation units before recognition, thus greatly reducing the occurrence of over-segmentation and weak segmentation in the process of Manchu segmentation.

【技术实现步骤摘要】
基于满文部件切分的印刷体满文识别方法
本专利技术属于文字文字识别领域,涉及一种基于满文部件切分的印刷体满文识别方法。
技术介绍
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
技术实现思路
为了解决提高满文切分精度的问题,本专利技术提出如下技术方案:一种基于满文部件切分的印刷体满文识别方法,包括如下步骤:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词。作为技术方案的补充,所述的对满文部件的切分包括提取满文单词图像中轴线及满文部件切分两个步骤。作为技术方案的补充,所述的提取满文单词图像中轴线的方法是:S1.1.定位满文单词图像中轴线;S1.2.检测满文单词图像中轴线宽度。作为技术方案的进一步补充,所述步骤S1.1具体包括:S1.1.1.对满文单词图像取反,令文字部分的像素值取1,而背景部分的像素值取0;S1.1.2.使用MATLAB图像处理工具箱的形态学细化函数实现满文单词图像的形态学细化;S1.1.3.对形态学细化后的满文单词图像,使用霍夫变换以确定细化的中轴线所对应的列坐标,该列坐标作为满文单词图像中轴线的位置,其中,限定霍夫变换搜索直线的角度为θ=90,仅查找竖直方向的直线,并连接相同纵向位置的,间距小于满文单词图像高度且自身长度大于1个像素的直线为一条直线,求出中轴线的中心位置。作为技术方案的进一步补充,所述步骤S1.2具体包括:S1.2.1.确定最大游程比例法的搜索区域;S1.2.2.对满文单词图像在搜索区域内施以最大游程比例法而确定满文单词图像中轴线的宽度;S1.2.3.由满文单词图像中轴线的中心位置和中轴线的宽度计算中轴线的左边界和右边界。作为技术方案的进一步补充,所述步骤S2.1具体为:最大游程比例法的搜索区域由下述公式规定的范围所确定:其中,sl是限定的搜索范围的左边界,sr是限定的搜索范围的右边界,baseline是中轴线的中心位置,round表示向最近的整数取整,W是满文单词图像的宽度。作为技术方案的进一步补充,所述步骤S1.2.2的最大游程比例法的步骤:扫描满文单词图像搜索区域的每一行,并统计连续黑色像素的游程长度和该长度出现的次数,则具有最大出现次数的游程长度就是满文单词图像中轴线的宽度。作为技术方案的进一步补充,由下式计算所述步骤S1.2.3的中轴线的左边界和右边界;其中:bl是中轴线的左边界,br是中轴线的右边界,baseline是满文单词图像中轴线的中心位置,baseline_width是满文单词图像中轴线的宽度,round表示向最近的整数取整。作为技术方案的补充,所述的满文部件切分的方法是:S1.满文部件粗切分;S2.弱分割区域的判定与细切分;S3.过分割区域判定与合并。作为技术方案的进一步补充,满文部件粗切分的步骤:以满文单词图像中轴线为中心将满文单词图像分为左侧部、中部、右侧部,左侧部的范围为满文单词图像的第1列到第bl-1列,右侧部的范围为满文单词图像的第br+1列到第W列,分别对左侧部和右侧部水平投影,记为pl和pr;设阈值T1,只有满足条件Cost(i)≤T1的行是候选切分行;其中:第i行的切分代价函数Cost(i)=pl(i)+pr(i),i=1,2,…,H,bl是中轴线的左边界,br是中轴线的右边界,W是满文单词图像的宽度,baseline_width是满文单词图像中轴线的宽度。作为技术方案的进一步补充,作为技术方案的进一步补充,候选切分行组成的序列为Can_seg,删除序列Can_seg中的多余候选切分行的步骤:(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;(4)输出删除了多余候选切分行的切分行序列Can_seg_new。作为技术方案的进一步补充,弱分割区域的判定与细切分的步骤:设定弱分割判定阈值T_less,计算切分行中每个切分区域的高度hl,则以下式判定弱分割区域:hl>T_less×baseline_width符合上式高度的切分区域判定为弱分割区域,对于弱分割区域,使用满文部件粗切分的步骤和细切分阈值T2进行二次切分,并保存在Seg1序列中。作为技术方案的进一步补充,设弱分割判定阈值T_less=5,细切分阈值作为技术方案的进一步补充,过分割区域判定与合并:设定过分割判定阈值T_over,计算Seg1序列中每个切分区域的高度ho,则以下式判定过分割区域:ho<T_over×baseline_width符合上式高度的切分区域被判定为过分割区域;采用以下规则合并过分割区域:(1)若第1个切分区域过分割,则与第2个切分区域合并;否则转步骤(2);(2)若倒数第2个切分区域过分割,则与最后一个切分区域合并;否则转步骤(3);(3)若过分割区域既不是第1个,也不是倒数第2个,则分别计算其相邻的上、下2个切分区域的高度h_up和h_lw,如果h_up<h_lw,则与上一个切分区域合并;如果h_up>h_lw,则合并到下一个切分区域;否则转步骤(4);(4)若过分割区域的上、下2个相邻区域的高度相等,则分别计算与上区域合并后的连通域个数num_up,与下区域合并后的连通域个数num_lw,如果num_up<num_lw,则与上一个切分区域合并,如果num_up>num_lw,则与下一个切分区域合并;(5)输出合并过分割区域的切分行序列。作为技术方案的进一步补充,设过分割判定阈值T_over=1。作为技术方案的补充,满文部件归一化包括满文部件位置归一化和大小归一化两个步骤:满文部件位置归一化:将切分后的满文部件图像以笔画像素点的最上、最下、最左、最右的像素点为边界,切除背景而保留该满文部件有笔画的部分;满文部件大小归一化:将各经满文部件位置归一化后的图像归一化为相同的尺寸。作为技术方案的补充,满文部件特征提取与融合步骤:分别提取待归一化后满文部件的轮廓特征、网格特征、方向线素特征、视觉方向特征和仿射不变距特征,并融合上述特征,采用主成分分析方法对融合特征降维。作为技术方案的补充,满文部件识别步骤:使用具有高斯核函数的支持向量机分类器对满文部件的经过降维的融合特征进行识别,从而实现满文部件的识别。作为技术方案的补充,满文部件重组并识别满文单本文档来自技高网...

【技术保护点】
1.一种基于满文部件切分的印刷体满文识别方法,其特征在于:包括如下步骤:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词。

【技术特征摘要】
1.一种基于满文部件切分的印刷体满文识别方法,其特征在于:包括如下步骤:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词。2.如权利要求1所述的基于满文部件切分的印刷体满文识别方法,其特征在于:所述的对满文部件的切分包括提取满文单词图像中轴线及满文部件切分两个步骤。3.如权利要求2所述的基于满文部件切分的印刷体满文识别方法,其特征在于:所述的提取满文单词图像中轴线的方法是:S1.定位满文单词图像中轴线;S2.检测满文单词图像中轴线宽度。4.如权利要求2所述的基于满文部件切分的印刷体满文识别方法,其特征在于:所述的满文部件切分的方法是:S1.满文部件粗切分;S2.弱分割区域的判定与细切分;S3.过分割区域判定与合并。5.如权利要求1所述的基于满文部件切分的印刷体满文识别方法,其特征在于:满文部件归一化包括满文部件位置归一化和大小归一化两个步骤:满文部件位置归一化:将切分...

【专利技术属性】
技术研发人员:郑蕊蕊李敏贺建军许爽吴宝春
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1