【技术实现步骤摘要】
手写登记方法、手写识别方法及其装置
本专利技术总体涉及手写识别领域,特别是涉及一种用于在线识别手写字符的方法及其装置。
技术介绍
为了在线识别手写,现有技术1[1]为每个字符建立了一个隐马尔可夫模型(HMM,HiddenMarkovModel)。因此,包括成千上万模型的识别字典是大的,并且使用该技术的计算成本高。出于降低计算成本的目的,在表意语言的手写识别中使用了基于偏旁的方法。美国专利7903877B2(称为现有技术2)使用了字符-偏旁字典,以通过共享较小的偏旁子集来表示成千上万的字符。然而,与基于字符的方法相比,基于偏旁的方法看起来经常对识别精度有不利影响,这是因为,仅使用一个HMM来表示偏旁在不同字符中的所有外观的做法,很难涵盖该字符实际的多样性。为了提高识别精度,美国专利6956969B2(称为现有技术3)将偏旁分类为若干类别。图1A例示了现有技术3在建立偏旁模型时的原理。偏旁X根据其在不同字符中的几何布局,而被分类为m个类别,其中每个类别对应于HMM模型。m是正整数。基于现有技术3的识别精度仍然远低于现有技术1。因此,期望能够提供一种能够既快速又精确地识别手写的新手写识别方法。参考文献[1]HanShu,“On-LineHandwritingRecognitionUsingHiddenMarkovModels”,MasterThesisinElectricalEngineeringandComputerScienceattheMassachusettsInstituteofTechnology,1997
技术实现思路
本专利技术是鉴于上述问题中的至少 ...
【技术保护点】
一种手写登记方法,该手写登记方法包括:构建包括偏旁隐马尔可夫模型HMM的偏旁字典,并且通过组合从所述偏旁字典中选择的偏旁HMM,来生成基于偏旁的字符HMM,其中,所述偏旁字典中的偏旁HMM是通过以下步骤生成的:训练数据获取步骤,其包括:选择包括至少一个类别的训练偏旁,并且获取所述至少一个类别中的一者的相应种子HMM,其中,将该训练偏旁分类到所述至少一个类别是基于该偏旁在不同字符中的几何布局;获取字符样本的训练数据集,其中,所述字符样本包括手写轨迹;获取字符HMM的模型数据集,其中,所述模型数据集包括多个字符的HMM;偏旁检测及偏旁采样点确定步骤,通过使用所获取到的种子HMM,在所述训练数据集当中,检测包含所述偏旁的字符样本作为所述偏旁的训练字符样本,并且针对所述偏旁的各个训练字符样本,确定所述偏旁的采样点;状态序列提取步骤,通过使用所述模型数据集中的相应字符的HMM,对所述偏旁的所述训练字符样本分别进行解码,并且从相应字符的HMM中,分别提取表示所述偏旁的状态序列;聚类步骤,基于状态数,将所提取出的状态序列聚类到子类别,使得每个子类别对应于一个偏旁HMM。
【技术特征摘要】
1.一种手写登记方法,该手写登记方法包括:构建包括偏旁隐马尔可夫模型HMM的偏旁字典,并且通过组合从所述偏旁字典中选择的偏旁HMM,来生成基于偏旁的字符HMM,其中,所述偏旁字典中的偏旁HMM是通过以下步骤生成的:训练数据获取步骤,其包括:选择包括至少一个类别的训练偏旁,并且获取所述至少一个类别中的一者的相应种子HMM,其中,将该训练偏旁分类到所述至少一个类别是基于该偏旁在不同字符中的几何布局;获取字符样本的训练数据集,其中,所述字符样本包括手写轨迹;获取字符HMM的模型数据集,其中,所述模型数据集包括多个字符的HMM;偏旁检测及偏旁采样点确定步骤,通过使用所获取到的种子HMM,在所述训练数据集当中,检测包含所述偏旁的字符样本作为所述偏旁的训练字符样本,并且针对所述偏旁的各个训练字符样本,确定所述偏旁的采样点;状态序列提取步骤,通过使用所述模型数据集中的相应字符的HMM,对所述偏旁的所述训练字符样本分别进行解码,并且从相应字符的HMM中,分别提取表示所述偏旁的状态序列;聚类步骤,基于状态数,将所提取出的状态序列聚类到子类别,使得每个子类别对应于一个偏旁HMM。2.根据权利要求1所述的手写登记方法,其中,所述基于偏旁的字符HMM是通过以下步骤生成的:偏旁模型选择步骤,针对包括要素偏旁的训练字符,基于每个要素偏旁在所述训练字符中的几何布局,为每个要素偏旁选择一个类别,并且基于所述训练字符的整体字符HMM中的、表示每个要素偏旁的状态序列的状态数,从所述偏旁字典中为每个要素偏旁选择一个子类别,并且针对每个要素偏旁,获得与所选择的子类别相对应的偏旁HMM;以及偏旁模型组合步骤,通过组合所获得的每个要素偏旁的偏旁HMM,来生成所述训练字符的基于偏旁的HMM。3.根据权利要求1或权利要求2所述的手写登记方法,其中,所述几何布局包括以下属性中的至少一者:偏旁在字符中的位置、形状或大小。4.根据权利要求1或权利要求2所述的手写登记方法,其中,所述聚类步骤包括:将状态数相同的所提取出的状态序列聚类到同一子类别。5.根据权利要求4所述的手写登记方法,其中,在所述聚类步骤中,通过从属于每个子类别的状态序列当中选择状态序列,来获得与每个子类别相对应的偏旁HMM。6.根据权利要求4所述的手写登记方法,其中,在所述聚类步骤中,通过训练包含相应子类别的训练偏旁的多个手写样本,来获得与每个子类别相对应的偏旁HMM。7.根据权利要求1或权利要求2所述的手写登记方法,其中,通过从源字符的HMM中提取表示所述训练偏旁的状态序列,来获得所述种子HMM,其中,所述训练偏旁在所述源字符中的几何布局属于所述种子HMM相对应的类别。8.根据权利要求1或权利要求2所述的手写登记方法,其中,通过训练所述训练偏旁的多个手写样本,来获得所述种子HMM,其中,所述训练偏旁的所述多个手写样本属于所述种子HMM相对应的类别。9.根据权利要求1或权利要求2所述的手写登记方法,其中,所述手写登记方法用于登记东亚字符。10.一种手写识别方法,该手写识别方法包括以下步骤:获取手写样本;以及通过使用包含多个基于偏旁的字符模型的字符字典,来识别所获取到的手写样本,其中,通过权利要求1至权利要求9的任一手写登记方法来生成所述多个基于偏旁的字符模型。11.根据权利要求10所述的手写识别方法,其中,所述字符字典是离线构建的,并且所述手写识别方法是在线实现的。12.一种手写登记装置,该手写登记装置包括偏旁模型构造单元以及字符模型构造单元,其中,所述偏旁模型构造单元被构造为构建包括偏旁隐马尔可夫模型HMM的偏旁字典,并且所述字符模型构造单元被构造为通过组合从所述偏旁字典中选择的偏旁HMM,来生成基于偏旁的字符HMM,其中,所述偏旁模型构造单元包括:训练数据获取子单元,其被构造为:...
【专利技术属性】
技术研发人员:王亮,李建杰,刘欣,
申请(专利权)人:佳能株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。