满文部件切分中删除多余候选切分行的方法技术

技术编号：18972769 阅读：26 留言：0更新日期：2018-09-19 03:47

满文部件切分中删除多余候选切分行的方法，属于文字切分领域，为了解决提高满文切分精度的问题，要点是(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)，H是满文单词图像的高度；(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行，当具有偶数个候选行时取中间两个值的平均值再向上取整；效果是将候选切分行中，对于认定的多余候选切分行进而删除，能够提高候选切分行的准确性，从而提高切分的准确性。

Method for deleting redundant candidate cut branches in Manchu component segmentation

In order to improve the accuracy of Manchu segmentation, the key points are: (1) if there is only one candidate segmentation line in the sequence Can_seg and it is the first line, delete the line; otherwise, turn to step (2); (2) look for the subsection CO which is composed of consecutive candidate segmentation lines. Nti_subseg deletes all rows of a segment if the segment starts at line 1 or ends at line H; otherwise, turning step (3) H is the height of the Manchu word image; (3) in conti_subseg, a conti_subseg sequence of consecutive candidate segments is replaced by a median for all rows of the segment, if it has a pair When several candidate rows are selected, the average value of the two values in the middle is taken and then upward integer is taken. The effect is that the candidate rows are sliced and then deleted for the identified redundant candidate rows, which can improve the accuracy of candidate rows, thus improving the accuracy of segmentation.

全部详细技术资料下载

【技术实现步骤摘要】
满文部件切分中删除多余候选切分行的方法
本专利技术属于文字切分领域，涉及一种满文部件切分中删除多余候选切分行的方法。
技术介绍
满文是我国满族、锡伯族等少数民族使用的语言文字，在清代作为法定文字被推广和使用，形成了大量珍贵的满文文献。由于目前满语文已濒临消失，满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字，共有38个字母，其中6个元音字母，22个辅音字母，此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下，行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等)，再予以识别，因而，提高满文识别的精度可以从提高其切分精度着手。
技术实现思路
为了解决提高满文切分精度的问题，本专利技术提出如下技术方案：一种满文部件切分中删除多余候选切分行的方法，候选切分行组成的序列为Can_seg，删除序列Can_seg中的多余候选切分行的步骤：(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)，H是满文单词图像的高度；(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行，当具有偶数个候选行时取中间两个值的平均值再向上取整；(4)输出删除了多余候选切分行的切分行序列Can_seg_new。有益效果：本专利技术将候选切分...

【技术保护点】
1.一种满文部件切分中删除多余候选切分行的方法，其特征在于，候选切分行组成的序列为Can_seg，删除序列Can_seg中的多余候选切分行的步骤：(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)，H是满文单词图像的高度；(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行，当具有偶数个候选行时取中间两个值的平均值再向上取整；(4)输出删除了多余候选切分行的切分行序列Can_seg_new。

【技术特征摘要】
1.一种满文部件切分中删除多余候选切分行的方法，其特征在于，候选切分行组成的序列为Can_seg，删除序列Can_seg中的多余候选切分行的步骤：(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行...

【专利技术属性】
技术研发人员：郑蕊蕊，李敏，贺建军，许爽，吴宝春，付玉，
申请(专利权)人：大连民族大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人