手写满文字母识别方法技术

技术编号:14010697 阅读:138 留言:0更新日期:2016-11-17 11:33
手写满文字母识别方法,涉及模式识别技术领域,用于解决对于满文字母,因其文字的特殊性,仅提取单一特征不具备一定的噪声抗干扰能力的问题,技术要点是:采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;采用K‑近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母。效果是:一方面减少了维数提高了分类计算效率,另一方面使得降维后的满文字母特征值更加容易区分,具有较好的噪声抗干扰能力,从而使得采用K‑近邻方法根据该降维后的满文字母特征值识别出的满文字母准确率较高。

【技术实现步骤摘要】

本专利技术涉及模式识别
,尤其涉及一种手写满文字母识别方法及装置。
技术介绍
满语作为一种古老的语言之一,是一种极具代表的少数民族文字,研究少数民族文字识别方法是保护和传承少数民族文化遗产的重要技术手段,具有重要的社会价值和历史意义。目前汉字的手写识别已满足实用化需求,英文和数字的脱机手写识别产品也已经很成熟,但圈点满文的手写文字识别仍是一块空白的领域,尚待研究。授权公告号CN 205451106 U的专利技术专利公开了一种手写满文字母采集系统,即基于该专利,可以实现对手写满文字母采集工作,依此建立满文字母库,获得满文字母数据样本,得到训练样本。传统的文字识别方法提取的特征通常为单一特征,但对于满文字母,因其文字的特殊性,仅提取单一特征不具备一定的噪声抗干扰能力。因此,当噪声干扰较大时,会导致满文字母的识别率较低。
技术实现思路
为克服现有技术中存在的问题,本专利技术公开一种手写满文字母识别方法及装置。根据本公开实施例的第一方面,提供一种手写满文字母识别方法,包括:对待识别的满文字母图像进行预处理;分别采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值;采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;采用K-近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母。在一实例例中,所述方法还包括:利用满文字母数据样本进行模型训练。在一实施例中,所述利用满文字母数据样本进行模型训练,包括:LDA降维矩阵计算,得到线性空间中最佳投影向量;设定不同的K值反复训练,调整K-近邻的参数值。在一实施例中,所述LDA降维矩阵计算,得到线性空间中最佳投影向量,包括:对待识别的满文字母图像样本进行预处理;分别采用方向特征提取方法和粗网络特征提取方法对所述待识别的满文字母图像样本提取特征,得到满文字母特征值;分配数据空间存储满文字母特征值和标签;计算各类样本期望以及总样本期望;计算类间协方差矩阵Sb及类内协方差矩阵Sw;求矩阵Sw-1Sb的特征向量,得到投影向量。在一实施例中,所述设定不同的K值反复训练,调整K-近邻的参数值,包括:对待识别的满文字母图像样本进行预处理;分别采用方向特征提取方法和粗网络特征提取方法对所述待识别的满文字母图像样本提取特征,得到满文字母特征值;采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;分配数据空间分别存储训练数据和测试元组,预设参数K;维护一个大小为k的按距离由大到小的优先级队列,用于存储待识别元组。随机从待识别元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将待识别元组标号和距离存入优先级队列;遍历训练元组集,计算当前待识别元组与测试元组的距离,比较所得距离L与优先级队列中的最大距离Lmax,得到最终的优先级队列;遍历完毕,计算优先级队列中k个元组的多数类,并将其作为测试元组的类别。测试元组集测试完毕后计算误差率,继续设定不同的K值重新训练,最后取误差率最小的K值。在一实施例中,比较所得距离L与优先级队列中的最大距离Lmax,得到最终的优先级队列,包括:当所述所得距离L大于优先级队列中的最大距离Lmax时,则舍弃该元组,遍历下一个元组。当所述所得距离L小于优先级队列中的最大距离Lmax时,则删除优先级队列中最大距离的元组,将当前训练元组存入优先级队列。在一实施例中,所述对满文字母图像进行预处理,包括:对满文字母图像进行字符大小的线性归一化、加虚拟笔划、字符的非线性归一化、笔划上的点的重采样、笔划上的点的平滑等等。在一实施例中,分别采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值,包括:对待识别的满文字母图像进行8方向特征提取,得到满文字母的方向特征值;对待识别的满文字母图像进行粗网络特征提取,得到满文字母的网格特征值;将满文字母的方向特征值和网格特征值组合为一列,得到满文字母特征值。在一实施例中,采用K-近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母,包括:维护一个大小为k的按距离由大到小的优先级队列,用于存储待识别元组。随机从待识别元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将待识别元组标号和距离存入优先级队列;遍历训练元组集,计算当前待识别元组与测试元组的距离,比较所得距离L与优先级队列中的最大距离Lmax,得到最终的优先级队列;遍历完毕,计算优先级队列中k个元组的多数类,并将其作为测试元组的类别。根据本公开实施例的第二方面,提供一种手写满文字母识别装置,包括:提取模块,被配置为采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值;降维模块,被配置为采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;分类模块,被配置为采用K-近邻方法对所述降维后的满文字母特征值进行分类 处理,得到所述待识别的满文字母图像对应的满文字母。在一实施例中,所述装置还包括:预处理模块,被配置为对待识别的满文字母图像进行预处理。在一实施例中,所述装置还包括:训练模块,被配置为利用满文字母数据样本进行模型训练。在一实施例中,所述训练模块包括:第一处理子模块,被配置为LDA降维矩阵计算,得到线性空间中最佳投影向量;第二处理子模块,被配置为设定不同的K值反复训练,调整K-近邻的参数值。在一实施例中,所述第一处理子模块包括:预处理模块,被配置为对所述待识别的满文字母图像样本进行预处理。提取模块,被配置为采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像样本提取特征,得到满文字母特征值;LDA降维矩阵计算模块,被配置为对LDA降维矩阵进行计算,得到线性空间中最佳投影向量。在一实施例中,所述第二处理子模块包括:预处理模块,被配置为对所述待识别的满文字母图像样本进行预处理。提取模块,被配置为采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像样本提取特征,得到满文字母特征值;降维模块,被配置为采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;KNN训练模块,被配置为设定不同的K值反复训练,调整K-近邻的参数值。在一实施例中,所述提取模块包括:方向特征提取子模块,被配置为对待识别的满文字母图像进行8方向特征提取,或者对待识别的满文字母图像样本进行8方向特征提取,得到满文字母的方向特征值。粗网络特征提取子模块,被配置为对待识别的满文字母图像进行粗网络特征提取,或者对待识别的满文字母图像样本进行粗网络特征提取,得到满文字母的网格特征值。在一实施例中,所述分类模块包括:距离计算单元,被配置为计算当前待识别元组与测试元组的距离。比较选择单元,被配置为比较所得距离与优先级队列中的最大距离,得到最终的优先级队列。等待遍历结束后选择优先级队列中K个元组的多数类,将其作为测试元组的类别。根据本公开实施例的第三方面,提供一种手写满文字母识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:本文档来自技高网...
手写满文字母识别方法

【技术保护点】
一种手写满文字母识别方法,其特征在于,包括:分别采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值;采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;采用K‐近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母。

【技术特征摘要】
1.一种手写满文字母识别方法,其特征在于,包括:分别采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值;采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值;采用K‐近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母。2.如权利要求1所述的手写满文字母识别方法,其特征在于,所述分别采用方向特征提取方法和粗网络特征提取方法对待识别的满文字母图像提取特征,得到满文字母特征值的方法,包括:待识别的满文字母图像进行8方向特征提取,得到满文字母的方向特征值;对待识别的满文字母图像进行粗网络特征提取,得到满文字母的网格特征值;将满文字母的方向特征值和网格特征值组合为一列,得到满文字母特征值。3.如权利要求1所述的手写满文字母识别方法,其特征在于,所述采用K‐近邻方法对所述降维后的满文字母特征值进行分类处理,得到所述待识别的满文字母图像对应的满文字母的方法,包括:维护一个大小为k的按距离由大到小的优先级队列,用于存储待识别元组。随机从待识别元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将待识别元组标号和距离存入优先级队列;遍历训练元组集,计算当前待识别元组与测试元组的距离,比较所得距离L与优先级队列中的最大距离Lmax,得到最终的优先级队列;遍历完毕,计算优先级队列中k个元组的多数类,并将其作为测试元组的类别。4.如权利要求1所述的手写满文字母识别方法,其特征在于,所述采用LDA线性判决分析的方法对所述满文字母特征值进行降维,得到降维后的满文字母特征值的步骤中,降维矩阵的获取方法,包括:建立存储满文数据样本的手写满文库;分别采用方向特征提取方法和粗网络特征提取方法对手写满文库中的满文字母图像提取特征,得到满文字母特征值;分配数据空间存储满文字母特征值和标签;计算各类样本期望以及总样本期望;计算类间协方差矩阵Sb及类内协方差矩阵Sw;求矩阵Sw-1Sb的特征向量,得到投影向量。5.如权利要求1所述的手写满文字母识别方法,其特征在于,所述采用K‐近邻方法对所述降维后的满文字母特征值进行分类处...

【专利技术属性】
技术研发人员:郑蕊蕊许爽李敏王帆刘晴
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1