当前位置: 首页 > 专利查询>新疆大学专利>正文

一种维吾尔文手写字母识别方法、系统及电子设备技术方案

技术编号:19178659 阅读:49 留言:0更新日期:2018-10-17 00:36
本申请属于文字识别技术领域,特别涉及一种维吾尔文手写字母识别方法、系统及电子设备。所述维吾尔文手写字母识别方法包括:步骤a:收集/读入/读入维吾尔文字母的原始手写样本;步骤b:对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像;步骤c:将所述二值图像输入卷积神经网络进行分类训练和测试,得到所述原始手写样本的识别结果。本申请有效地提高了网络模型的性能,识别准确率高。

Uyghur handwritten alphabet recognition method, system and electronic equipment

This application belongs to the technical field of character recognition, in particular to a method, system and electronic equipment for recognizing Uygur handwritten letters. The method for recognizing Uygur handwritten letters includes: step a: collecting/reading/reading original handwritten samples of Uygur letters; step b: preprocessing the original handwritten samples and converting the original handwritten samples into binary images; step c: input the binary images into convolutional neural network for classification training. The recognition results of the original handwritten samples are obtained through training and testing. This application effectively improves the performance of the network model and has high accuracy.

【技术实现步骤摘要】
一种维吾尔文手写字母识别方法、系统及电子设备
本申请属于文字识别
,特别涉及一种维吾尔文手写字母识别方法、系统及电子设备。
技术介绍
手写识别是模式识别最典型的应用之一[GaoY,JinL,HeC,etal.HandwritingCharacterRecognitionasaService:ANewHandwritingRecognitionSystemBasedonCloudComputing[J].2011:885-889.]。从最早在邮政和银行服务中应用数字和地址核对,图书馆和博物馆的历史资源的数字化,手写识别一直在办公,自动化和日常通信中收欢迎。目前,它是人机交互式智能设备最流行的属性之一。手写识别有两个主要分支,是联机手写识别和脱机手写识别[LiuCL,YinF,WangDH,etal.OnlineandofflinehandwrittenChinesecharacterrecognition:Benchmarkingonnewdatabases[J].PatternRecognition,2013,46(1):155-162.]。在联机手写识别中,利用在手写过程中记录下来的笔尖轨迹信息对手写体样本进行分类。当然,手写轨迹可以保存下来,在以后的学习和实验中反复使用。脱机手写识别的识别对象是手写文字图像。原始手写样本具有精确的笔尖轨迹,因此包含了空间和时间信息。脱机手写识别利用图像处理技术获取手写样本的空间信息。从已经完成的脱机手写图像中获取时间信息是非常具有挑战性的。形成一个手写字母或文字形状具有高度随机性。一个相同的手写体对象可能是以不同的大小、顺序和倾斜度写成的。不符合书写规则的情况经常发生。虽然原始手写样本包含丰富的信息,但手写体形状的随机性使其难以识别。例如,一个手写文字起始部分的笔划可能最终才开始写,或者一个手写文字中的某部分还没有完成,下一个部分就开始写等。这样的随机性会降低原始手写样本中时间信息的优势[MASAYOSHIOKAMOTO,KAZUHIKOYAMAMOTO.ONLINEHANDWRITINGCHARACTERRECOGNITIONMETHODUSINGDIRECTIONAL,ANDDIRECTION-CHANGEFEATURES[J].InternationalJournalofPatternRecognition&ArtificialIntelligence,1999,13(07):1041-1059.]。有时候,只利用空间信息进行识别原始手写样本。维吾尔语属于阿尔泰语系突厥语族,是我国西北地区应用最广泛的语言之一。在悠久的历史中维吾尔语曾用过多种文字。现代维吾尔文是基于一千多年以来持续使用的后期察合台文基础上修改的,引用阿拉伯和波斯文字母的拼音文字。因其字母形式之间的相似性大,维吾尔文手写字母识别一直是个难度较大的研究问题。至今,维吾尔文手写字母识别方法大体上都是基于传统的模式识别框架,与英文、中文和日文等文字的手写字母识别相比,维吾尔文手写字母识别还处于初步阶段,需更多研究[JaegerS,NakagawaM,LiuCL.ABriefSurveyontheStateoftheArtinOn-LineHandwritingRecognitionforJapaneseandWesternScript[J].TechnicalReportofIeicePrmu,2002,101(713):2001-2721.][ZhangXY,YinF,ZhangYM,etal.DrawingandRecognizingChineseCharacterswithRecurrentNeuralNetwork[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2016,PP(99):1-1.]。在传统的模式识别中人为设计和提取的特征对于获得良好的识别效果至关重要。根据手写维吾尔文字母形状的结构和统计特性,出现了不同的特征提取方法[SimayiW,IbrayimM,TursunD,etal.SurveyontheFeaturesforRecognitionofon-lineHandwrittenUyghurCharacters[J].InternationalJournalofSignalProcessingImageProcessing&PatternRecognition,2015,8(3):850-3.]。利用典型的分类器在字母识别实验中获得了良好的识别效果。各种分类器的结合进一步提高了字母的正确识别率[戴笑来.基于移动平台的联机手写维吾尔文单字符及单词识别[D].西安电子科技大学,2012.许亚美.手写维吾尔文字识别若干关键技术研究[D].西安电子科技大学,2014]。维吾尔文有很多相似字母,单独识别这些字母非常困难,有时候甚至不可能。有些字母识别研究只对字母的独立式上设计和进行。深度学习在很多模式识别领域中都体现出了它的优势,从而得到了广泛的关注和应用[AlomMZ,SidikeP,HasanM,etal.HandwrittenBanglaCharacterRecognitionUsingTheState-of-ArtDeepConvolutionalNeuralNetworks[J].2017.],但目前还没有利用深度学习技术对维吾尔文手写字母进行识别的相关研究。
技术实现思路
本申请提供了一种维吾尔文手写字母识别方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种维吾尔文手写字母识别方法,包括以下步骤:步骤a:收集/读入维吾尔文字母的原始手写样本;步骤b:对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像;步骤c:将所述二值图像输入卷积神经网络进行分类训练和测试,得到所述原始手写样本的识别结果。本申请实施例采取的技术方案还包括:在所述步骤a中,所述收集/读入维吾尔文字母的原始手写样本具体为通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本,所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志,字母轨迹总结束标志以及每个点的坐标信息。本申请实施拟采取的技术方案还包括:在所述步骤b中,所述对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像具体包括:步骤b1:对每个原始手写样本的笔划轨迹分别进行点插入操作,新插入点的坐标计算公式为:上式中,(xi,yi)是第i个插入点的坐标,ΔX和ΔY分别表示水平和垂直方向上的的距离,该距离的正整数N为需要插入的点数;步骤b2:对原始手写样本进行坐标范围归一化;坐标归一化后的新点坐标计算公式为:上式中,(W,H)代表原始坐标范围虚拟窗口的宽度和高度,(X,Y)是原始点坐标值,(w,h)是归一化后坐标范围虚拟窗口的宽度和高度,(x,y)是归一化后的点坐标。为了避免信息丢失本专利技术保持了原始的手写样本轨迹范围不变,即横坐标和纵坐标的取值范围都是[1,255].步骤b3:根据归一化后的坐标范围对原始手写样本文档来自技高网
...

【技术保护点】
1.一种维吾尔文手写字母识别方法,其特征在于,包括以下步骤:步骤a:收集/读入维吾尔文字母的原始手写样本;步骤b:对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像;步骤c:将所述二值图像输入卷积神经网络进行分类训练和测试,得到所述原始手写样本的识别结果。

【技术特征摘要】
1.一种维吾尔文手写字母识别方法,其特征在于,包括以下步骤:步骤a:收集/读入维吾尔文字母的原始手写样本;步骤b:对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像;步骤c:将所述二值图像输入卷积神经网络进行分类训练和测试,得到所述原始手写样本的识别结果。2.根据权利要求1所述的维吾尔文手写字母识别方法,其特征在于,在所述步骤a中,所述收集/读入维吾尔文字母的原始手写样本,具体为:通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本,所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志,字母轨迹总结束标志以及每个点的坐标信息。3.根据权利要求2所述的维吾尔文手写字母识别方法,其特征在于,在所述步骤b中,所述对所述原始手写样本进行预处理,将所述原始手写样本转换为二值图像具体包括:步骤b1:对每个原始手写样本的笔划轨迹分别进行点插入操作,新插入点的坐标计算公式为:上式中,(xi,yi)是第i个插入点的坐标,ΔX和ΔY分别表示水平和垂直方向上的的距离,该距离的正整数N为需要插入的点数;步骤b2:对原始手写样本进行坐标范围归一化;坐标归一化后的新点坐标计算公式为:上式中,(W,H)代表原始坐标范围虚拟窗口的宽度和高度,(X,Y)是原始点坐标值,(w,h)是归一化后坐标范围虚拟窗口的宽度和高度,(x,y)是归一化后的点坐标;为了避免信息丢失本发明保持了原始的手写样本轨迹范围不变,即横坐标和纵坐标的取值范围都是[1,255].步骤b3:根据归一化后的坐标范围对原始手写样本进行尺寸调整。4.根据权利要求3所述的维吾尔文手写字母识别方法,其特征在于,在所述步骤b3中,所述根据归一化后的坐标范围对原始手写样本进行尺寸调整具体包括:步骤b3a:计算原始手写样本的宽度和高度对于归一化后坐标范围所形成的虚拟窗口的宽度比例和高度比例;步骤b3b:根据所述宽度比例和高度比例计算样本尺寸调整比例,并根据样本尺寸调整比例将原始手写样本调整到归一化的坐标范围;步骤b3c:将调整后的样本轨迹移到归一化后坐标范围虚拟窗口的中心;步骤b3d:将尺寸调整后的原始手写样本转换成二值图像。5.根据权利要求1至4任一项所述的维吾尔文手写字母识别方法,其特征在于,在所述步骤c中,所述卷积神经网络包括5个卷积层、5个池化层、3个全连接层和softmax分类器,所述5个卷积层用于提取二值图像的特征图,所述5个池化层用于将卷积层提取的特征图的大小减半,所述3个全连接层用于对特征图进行全局组合后输入softmax分类器,所述softmax分类器用于根据特征图对原始手写样本进行分类,得到所述原始手写样本的识别结果。6.一种维吾尔文手写字母识别系统,其特征在于,包括:样本收集/读入模块:用于收集/读入维吾尔文字母的原始手写样本;样本预处理模块:用于对所述原始手写...

【专利技术属性】
技术研发人员:艾斯卡尔·艾木都拉吾加合买提·司马义玛依热·依布拉音
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1