基于满文部件切分的印刷体满文识别方法技术

技术编号：18941933 阅读：40 留言：0更新日期：2018-09-15 11:21

基于满文部件切分的印刷体满文识别方法，属于文字识别领域，为了解决提高满文切分精度的问题，要点是包括如下步骤：S1.对满文部件的切分；S2.满文部件归一化；S3.满文部件特征提取与融合；S4.满文部件识别；S5.满文部件重组并识别满文单词，效果是识别前，以满文部件作为切分单元，从而能够极大降低对满文切分过程中的过切分和弱切分现象发生。

Printed Manchu text recognition method based on Manchu component segmentation

Printed Manchu recognition method based on Manchu component segmentation belongs to the field of character recognition. In order to improve the accuracy of Manchu segmentation, the main points include the following steps: S1. segmentation of Manchu components; S2. normalization of Manchu components; S3. feature extraction and fusion of Manchu components; S4. Manchu component recognition; S5. Manchu components. The effect of reorganizing and recognizing Manchu words is to use Manchu parts as segmentation units before recognition, thus greatly reducing the occurrence of over-segmentation and weak segmentation in the process of Manchu segmentation.

全部详细技术资料下载

【技术实现步骤摘要】
基于满文部件切分的印刷体满文识别方法
本专利技术属于文字文字识别领域，涉及一种基于满文部件切分的印刷体满文识别方法。
技术介绍
满文是我国满族、锡伯族等少数民族使用的语言文字，在清代作为法定文字被推广和使用，形成了大量珍贵的满文文献。由于目前满语文已濒临消失，满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字，共有38个字母，其中6个元音字母，22个辅音字母，此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下，行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等)，再予以识别，因而，提高满文识别的精度可以从提高其切分精度着手。
技术实现思路
为了解决提高满文切分精度的问题，本专利技术提出如下技术方案：一种基于满文部件切分的印刷体满文识别方法，包括如下步骤：S1.对满文部件的切分；S2.满文部件归一化；S3.满文部件特征提取与融合；S4.满文部件识别；S5.满文部件重组并识别满文单词。作为技术方案的补充，所述的对满文部件的切分包括提取满文单词图像中轴线及满文部件切分两个步骤。作为技术方案的补充，所述的提取满文单词图像中轴线的方法是：S1.1.定位满文单词图像中轴线；S1.2.检测满文单词图像中轴线宽度。作为技术方案的进一步补充，所述步骤S1.1具体包括：S1.1.1.对满文单词图像取反，令文字部分的像素值取1，而背景部分的像素值取0；S1.1.2.使用MATLAB图像处理工具箱的形态学细化函数实现满文单词图像的形态学细化；S1.1...

【技术保护点】
1.一种基于满文部件切分的印刷体满文识别方法，其特征在于：包括如下步骤：S1.对满文部件的切分；S2.满文部件归一化；S3.满文部件特征提取与融合；S4.满文部件识别；S5.满文部件重组并识别满文单词。

【技术特征摘要】
1.一种基于满文部件切分的印刷体满文识别方法，其特征在于：包括如下步骤：S1.对满文部件的切分；S2.满文部件归一化；S3.满文部件特征提取与融合；S4.满文部件识别；S5.满文部件重组并识别满文单词。2.如权利要求1所述的基于满文部件切分的印刷体满文识别方法，其特征在于：所述的对满文部件的切分包括提取满文单词图像中轴线及满文部件切分两个步骤。3.如权利要求2所述的基于满文部件切分的印刷体满文识别方法，其特征在于：所述的提取满文单词图像中轴线的方法是：S1.定位满文单词图像中轴线；S2.检测满文单词图像中轴线宽度。4.如权利要求2所述的基于满文部件切分的印刷体满文识别方法，其特征在于：所述的满文部件切分的方法是：S1.满文部件粗切分；S2.弱分割区域的判定与细切分；S3.过分割区域判定与合并。5.如权利要求1所述的基于满文部件切分的印刷体满文识别方法，其特征在于：满文部件归一化包括满文部件位置归一化和大小归一化两个步骤：满文部件位置归一化：将切分...

【专利技术属性】
技术研发人员：郑蕊蕊，李敏，贺建军，许爽，吴宝春，
申请(专利权)人：大连民族大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人