满文部件切分中删除多余候选切分行的方法技术

技术编号:18972769 阅读:26 留言:0更新日期:2018-09-19 03:47
满文部件切分中删除多余候选切分行的方法,属于文字切分领域,为了解决提高满文切分精度的问题,要点是(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;效果是将候选切分行中,对于认定的多余候选切分行进而删除,能够提高候选切分行的准确性,从而提高切分的准确性。

Method for deleting redundant candidate cut branches in Manchu component segmentation

In order to improve the accuracy of Manchu segmentation, the key points are: (1) if there is only one candidate segmentation line in the sequence Can_seg and it is the first line, delete the line; otherwise, turn to step (2); (2) look for the subsection CO which is composed of consecutive candidate segmentation lines. Nti_subseg deletes all rows of a segment if the segment starts at line 1 or ends at line H; otherwise, turning step (3) H is the height of the Manchu word image; (3) in conti_subseg, a conti_subseg sequence of consecutive candidate segments is replaced by a median for all rows of the segment, if it has a pair When several candidate rows are selected, the average value of the two values in the middle is taken and then upward integer is taken. The effect is that the candidate rows are sliced and then deleted for the identified redundant candidate rows, which can improve the accuracy of candidate rows, thus improving the accuracy of segmentation.

【技术实现步骤摘要】
满文部件切分中删除多余候选切分行的方法
本专利技术属于文字切分领域,涉及一种满文部件切分中删除多余候选切分行的方法。
技术介绍
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
技术实现思路
为了解决提高满文切分精度的问题,本专利技术提出如下技术方案:一种满文部件切分中删除多余候选切分行的方法,候选切分行组成的序列为Can_seg,删除序列Can_seg中的多余候选切分行的步骤:(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;(4)输出删除了多余候选切分行的切分行序列Can_seg_new。有益效果:本专利技术将候选切分行中,对于认定的多余候选切分行进而删除,能够提高候选切分行的准确性,从而提高切分的准确性。附图说明图1满文部件集构建流程图;图2满文部件分割流程图;图3传统方法满文单词图像中轴线提取错误实例图;图4采用区域限定的最大游程比例法确定满文中轴线宽度的图,其中:(1)最大游程比例法错误实例图、(2)本专利技术限定的搜索范围图、(3)本专利技术方法结果图;图5本专利技术方法中轴线提取效果图;图6满文部件切分流程图;图7满文部件切分结果图,其中:(1)弱分割现象图、(2)弱分割区域经过细切分图、(3)过分割现象图、(4)过分割区域经过合并图、(5)部分分割结果图。具体实施方式从光学字符识别技术的角度分析,满文具有以下特点:(1)根据在单词中位置的不同,满文同一个字母一般有独立形、字头形、字中形和字尾形4种不同形式。满文不同字形的字母共计114个。(2)满文文档同列单词都位于相同的中轴线附近,印刷体满文两列之间的单词基本不会出现交叉的情况,有利于列提取。同一列满文文本中满文单词之间有一定间隔,有利于单词提取。(3)满文单词由一个或多个满文字母竖向中轴线连接组成,同一单词内的字母与字母之间没有空隙。但是字母与字母的相拼处位于满文单词图像中轴线上,可以考虑利用中轴线处的像素特性分割满文字母。(4)部分满文字母具有“一形多字”现象。例如字符同时是字母a、e和n的字中形,在识别中可根据相邻字母的拼读规则加以区别。(5)部分满文字母具有相同的组成部分。例如字符(字母o的字头形),可以看做是由字符(字母e的字头形)和字符(字母o的字中形)两部分组合而成。因此以满文字母为基本分割单元则容易出现过分割和弱分割的现象。(6)某些字母组合不具备可分性。例如(bo),切分成(字母b)和(字母o)非常困难。基于上述满文的特点,本实施例提出一种以部件重新解构满文单词的思路,以满文部件(以下简称部件)作为分割和识别的基本单元,能够解决以满文字母为基本分割单元导致的过分割和弱分割问题,满文部件集包括满文字母、字母或字母组合的一部分、字母组合等3种来源,构建满文部件集的目的在于减少因分割带来的错误识别,这是因为如果按照字母为基本分割单元,则如前述分析,易出现过分割和弱分割问题,则后续用于识别字母的分类器势必会对过分割和弱分割的部分产生识别错误,甚至不能够识别;而本专利技术(方法)提出的满文部件集,是以分割方法的结果为导向设计构建的,也就是说,常见的过分割(字母或字母组合的一部分)和弱分割(字母组合)不再认为是一种“错误”,而是一种“正确”的分割,因此后续设计的分类器能够识别这些部件,从而减少了因分割错误产生的识别错误等问题。对于满文部件的理解,可以参考与对英文单词的识别进行类比。以英文单词study为例,可以直接识别整词study;也可以把整词切分成s,t,u,d,y等字母,分别识别字母,然后组合成单词study;如果切分成字母难以实现,而切分成部件相对容易,例如,容易切分成:st,u,dy,(其中,st,u,dy都是部件)则识别部件,然后把部件组合成单词,然而,满文由于具有上述特点,其部件的切分并非如举例的英文一样容易,如图1所示,满文部件集的构建流程是:参考满文字母表、中华人民共和国国家标准《信息技术通用多八位编码字符集锡伯文、满文字型》、文献[1-2]中的蒙古文部件集,提出一个包含99个初始部件的满文部件初始集(以下简称为“初始集”),并置每个满文部件的Flag=0。使用满文切分对满文单词图像进行分割,并统计和分析分割结果:若分割后的部件不属于初始集,则将该部件加入初始集,并置该部件的Flag=1;若分割后的部件属于初始部件集,则置对应部件的Flag=1。检查初始集中是否有部件的Flag=0,判断是否有部件在分割结果中从未出现过,若存在该部件则将该部件从初始集中删除。整理并输出满文部件集。满文部件集中共包含部件106个,详见附表1。其中述及的文献[1-2]:[1]HongxiWei,GuanglaiGao.AkeywordretrievalsystemforhistoricalMongoliandocumentimages[J].Internationaljournalondocumentanalysisandrecognition,2014,17(1),33-45.[2]LiangruiPeng,ChangsongLiu,XiaoqingDing,JianmingJin,YoushouWu,HuaWang,YanhuaBao.Multi-fontprintedMongoliandocumentrecognitionsystem[J].Internationaljournalondocumentanalysisandrecognition,2010,13(2):93-106.如图2所示,满部件文的切分步骤如下:S1.满文纸质文档通过光电转换设备被转换为能够用计算机存储和处理的数字图像文档,将满文文档的数字图像进行图像预处理(平滑、二值化);S2.版面分析(倾斜矫正、列切分和单词切分);S3.提取满文单词图像;S4.位置归一化;S5.中轴线提取;S6.根据满文部件与中轴线位置的关系实现满文部件切分。其中,倾斜校正采用霍夫变换法确定版面倾斜角度,然后旋转图像并矫正回垂直文本状态;被倾斜矫正的满文文档采用垂直投影法进行列切分,采用水平投影法切分单词并提取满文列图像中的满文单词,再对满文单词图像进行位置归一化。由上述步骤即完成了满文单词图像的预处理,记满文单词图像的高度为H,宽度为W。需要说明的是,对满文单词本文档来自技高网...

【技术保护点】
1.一种满文部件切分中删除多余候选切分行的方法,其特征在于,候选切分行组成的序列为Can_seg,删除序列Can_seg中的多余候选切分行的步骤:(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;(4)输出删除了多余候选切分行的切分行序列Can_seg_new。

【技术特征摘要】
1.一种满文部件切分中删除多余候选切分行的方法,其特征在于,候选切分行组成的序列为Can_seg,删除序列Can_seg中的多余候选切分行的步骤:(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行...

【专利技术属性】
技术研发人员:郑蕊蕊李敏贺建军许爽吴宝春付玉
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1