用于手写识别的方法及装置制造方法及图纸

技术编号:14449156 阅读:129 留言:0更新日期:2017-01-18 09:51
本发明专利技术提供一种用于手写识别的方法及装置。该手写登记方法包括:训练数据获取步骤,用于获取训练字符的训练数据,其中,所述训练字符包括至少一个偏旁,所述训练数据包括所述训练字符的代码;虚拟样本生成步骤,用于基于偏旁数据集来生成所述训练字符的至少一个虚拟样本,其中,所述偏旁数据集包括所述训练字符的所述至少一个偏旁的至少一个书写风格模板;以及识别模板生成步骤,用于基于所述训练字符的所述训练数据和所述至少一个虚拟样本,来生成所述训练字符的至少一个识别模板。

【技术实现步骤摘要】

本专利技术通常涉及手写识别领域,具体地,涉及一种用于在线识别手写字符的方法及其装置。
技术介绍
近年来,在线手写识别被广泛用于人机交互系统。以多功能外围设备(MFP)为例,手写识别的技术使得用户能够输入操作参数来指示MFP。用户能够通过手写输入姓名以及用户的传真目的地的地址。MFP识别手写字符,并相应地实施传真操作。在这种场景下,用户有时需要通过少量的手写样本,将新字符登记到手写识别引擎的字典中。例如,用户需要登记日文汉字字符,因为当ROM大小有限时,没有必要生成能够涵盖所有日文汉字字符的字典。然而,如果在登记阶段中由一个人书写了字符的样本,则对MFP的手写识别引擎而言,将难以识别由其他人书写的该字符的样本。因为不同的人可能具有不同的书写风格,例如不同的笔划顺序、不同的笔划数、不同的笔划形状等。图12A至图12E能够帮助理解笔划数。在图12A中,书写风格模板的笔划数是1,在图12B至图12D中,模板的笔划数分别是2,在图12E中,模板的笔划数是3。美国专利第7865018号公开了一种利用个性化手写识别引擎的手写识别技术。识别技术使用个人的先前的书写风格的示例,来帮助识别该个人输入的新笔迹。如果其他个人具有不同的书写风格,则该方法不能支持其他个人。在在线登记的场景下,用于登记的真实手写样本的数量通常太少,而不能包含一个字符的所有可能书写风格。但是,即使当字符的登记样本仅有少量时,仍然存在识别该字符的各种测试样本的需要。
技术实现思路
本专利技术是鉴于上述问题中的至少一者而提出的。根据本专利技术的一个方面,提供了一种手写登记方法,该手写登记方法包括:训练数据获取步骤,用于获取训练字符的训练数据,其中,所述训练字符包括至少一个偏旁,所述训练数据包括所述训练字符的代码;虚拟样本生成步骤,用于基于偏旁数据集来生成所述训练字符的至少一个虚拟样本,其中,所述偏旁数据集包括所述训练字符的所述至少一个偏旁的至少一个书写风格模板;以及识别模板生成步骤,用于基于所述训练字符的所述训练数据和所述至少一个虚拟样本,来生成所述训练字符的至少一个识别模板。通过以下参照附图对示例性实施例的描述,本专利技术的其他特征将变得清楚。附图说明被并入本说明书并构成本说明书的一部分的附图例示了本专利技术的实施例,并且与文字描述一起用来说明本专利技术的原理。图1是例示根据第一示例性系统配置的图像处理装置100的配置的示意性框图。图2是例示图1中的字符识别单元120的示例性硬件配置的框图。图3示意性地示出了根据第一实施例的生成偏旁的书写风格模板的一般流程图。图4示出了根据第一实施例的对偏旁的样本进行聚类(clustering)的流程图。图5示出了手写登记方法的一般流程图。图6示出了根据第二实施例的生成训练字符的至少一个虚拟样本的流程图。图7示出了根据第三实施例的生成训练字符的至少一个虚拟样本的流程图。图8示出了根据第三实施例的检测偏旁的详细流程图。图9例示了日文汉字字符“記”及其笔划顺序的登记样本。图10示出了根据第三实施例构造检测到的偏旁的手写的详细流程图。图11A例示了图9中的登记样本的编号7和8的笔划。图11B例示了图9中的登记样本的编号7和8的笔划的笔划片段。图12A至图12E例示了偏旁“己”的5种书写风格模板。图13例示了由训练字符的偏旁的书写风格模板来构造该训练字符的虚拟样本的示例。图14例示了图像坐标系。图15示例性地例示了字符结构字典。图16是示例性地例示根据第一实施例的生成偏旁的书写风格模板的基本处理的示意图。图17是示例性地例示根据第二实施例的生成训练字符的至少一个虚拟样本的基本处理的示意图。图18是示例性地例示根据第三实施例的生成训练字符的至少一个虚拟样本的基本处理的示意图。图19是根据本专利技术的轨迹分割装置的功能配置。具体实施方式下面,将参照附图来详细描述本专利技术的示例性实施例。应当指出,以下的描述实质上仅是说明性和示例性的,并且决不旨在限定本专利技术及其应用或用途。在实施例中陈述的部件和步骤、数值表达式以及数值的相对布置并不限定本专利技术的范围,除非另外特别说明。此外,对本领域技术人员公知的技术、方法及设备可能不进行详细讨论,但在适当的情况下旨在作为本说明书的一部分。图1是例示根据能够实现本专利技术的实施例的第一示例性系统配置的图像处理装置100的配置的示意性框图。装置100是包括诸如复印功能、扫描器功能、传真功能等的各种功能的多功能外围设备。也可以由多个装置相互协作来实现这些功能。装置100包括用户界面(UI)单元110、字符识别单元120、图像处理单元130以及网络接口140。装置100中的部件单元经由总线10相互通信。UI单元110使用户能够通过键盘或触敏屏来输入命令并优化操作参数。UI单元110还向用户显示诸如状态和处理进度的各种信息。例如,UI单元110使用户能够经由触敏屏来输入手写。字符识别单元120获取输入的手写,并计算识别结果。然后,图像处理单元130根据识别结果来对输入图像进行处理。网络接口140将图像处理装置100连接到网络,并且控制从在网络上的外部设备的数据接收或者向外部设备的数据发送。接收到的数据可以是要打印的数据,并且发送到外部设备的数据可以是通过扫描纸质文档而获取的图像,或者要传真给某个目的地的图像。图2是例示图1中的字符识别单元120的示例性硬件配置的框图。处理器121通过将存储在硬盘驱动器(HDD)123中的程序和识别字典加载到存储器122上,来控制图像处理装置100的总体操作。此外,处理器121经由总线10与字符识别单元120中的其他部件通信。处理器121还被布置为根据公开的方法来读取、解码并执行全部步骤。处理器121利用系统总线10将字符识别结果记录到存储器122中。除了存储器122之外,字符识别结果也可以被更永久地存储在HDD123上。作为另一选择,可以使用字符识别结果作为用来控制图像处理单元130的命令的辅助。在下文中,将参照第一实施例和附图,来详细描述生成偏旁的书写风格模板的方法。首先,将说明本说明书中使用的术语。(1)字符的代码。每个日文汉字字符被赋予了基准真值(groundtruth)或者唯一代码。在该实施例中,应用Unicode(统一码)系统。例如,字符“記”被定义为0x8a18。各偏旁也被定义为唯一代码。例如,偏旁“言”被定义为0x0001,并且偏旁“己”被定义为0x0010。(2)偏旁。偏旁被定义为一个字符中的一组相邻笔划。在一个字符中,偏旁彼此不交叠。在此,无交叠是指一个字符中的不同偏旁不共用同一笔划。并且每个字符可以被视为由至少一个偏旁组成。在该实施例中,如果字符能够被拆分成左、右两部分,则左半部分的笔划组或者右半部分的笔划组可以被分别定义为一个偏旁。如果字符能够被拆分成上、下两部分,则上半部分的笔划组或者下半部分的笔划组可以被分别定义为一个偏旁。如果字符不能被拆分,则该字符本身也可以作为整体被定义为一个偏旁。(3)字符结构字典。字符结构字典被预先生成。该字典包括字符和相应偏旁的配对信息。对于给定的字符,该字典指明该字符由哪些偏旁组成、这些偏旁的代码、这些偏旁在该字符中的位置、以及该字符的这些偏旁的书写顺序。偏旁在一个字符中的位置信息例如包括:—偏旁的中心点在日文汉字字符中的坐标本文档来自技高网...

【技术保护点】
一种手写登记方法,该手写登记方法包括:训练数据获取步骤,用于获取训练字符的训练数据,其中,所述训练字符包括至少一个偏旁,所述训练数据包括所述训练字符的代码;虚拟样本生成步骤,用于基于偏旁数据集来生成所述训练字符的至少一个虚拟样本,其中,所述偏旁数据集包括所述训练字符的所述至少一个偏旁的至少一个书写风格模板;以及识别模板生成步骤,用于基于所述训练字符的所述训练数据和所述至少一个虚拟样本,来生成所述训练字符的至少一个识别模板。

【技术特征摘要】
1.一种手写登记方法,该手写登记方法包括:训练数据获取步骤,用于获取训练字符的训练数据,其中,所述训练字符包括至少一个偏旁,所述训练数据包括所述训练字符的代码;虚拟样本生成步骤,用于基于偏旁数据集来生成所述训练字符的至少一个虚拟样本,其中,所述偏旁数据集包括所述训练字符的所述至少一个偏旁的至少一个书写风格模板;以及识别模板生成步骤,用于基于所述训练字符的所述训练数据和所述至少一个虚拟样本,来生成所述训练字符的至少一个识别模板。2.根据权利要求1所述的手写登记方法,其中,所述至少一个书写风格模板包括所述训练字符的所述至少一个偏旁的代码和笔划特征。3.根据权利要求2所述的手写登记方法,其中,所述训练字符的所述至少一个偏旁的所述笔划特征包括笔划数、和/或笔划形状、和/或笔划方向、和/或笔划顺序。4.根据权利要求2或3所述的手写登记方法,其中,所述偏旁数据集包括所述训练字符的所述至少一个偏旁的多个书写风格模板,并且所述多个书写风格模板具有不同的笔划特征。5.根据权利要求1至3所述的手写登记方法,其中,所述虚拟样本生成步骤还包括:偏旁检测步骤,用于检测所述至少一个偏旁,其中,所述至少一个偏旁被包括在所述训练字符中;偏旁手写构造步骤,用于通过使用所述偏旁数据集,来构造所检测到的至少一个偏旁的至少一个手写;虚拟样本构造步骤,用于通过使用所构造的偏旁手写,来构造所述训练字符的至少一个虚拟样本。6.根据权利要求5所述的手写登记方法,其中,所述虚拟样本生成步骤还利用字符结构字典,所述字符结构字典包含至少一个条目,所述至少一个条目中的一个条目包括所述训练字符和相应偏旁的配对信息。7.根据权利要求6所述的手写登记方法,其中,所述配对信息还包
\t括所述相应偏旁中的各个的代码、位置以及顺序。8.根据权利要求7所述的手写登记方法,其中,针对所述训练字符中包括的各偏旁,所述偏旁数据集包括至少一个书写风格模板。9.根据权利要求8所述的手写登记方法,其中,所述偏旁检测步骤基于所述训练字符的代码以及字符结构字典,并且,所述虚拟样本构造步骤基于所述字符结构字典。10.根据权利要求5所述的手写登记方法,其中,所述虚拟样本生成步骤还利用所述训练字符的至少一个训练样本。11.根据权利要求10所述的手写登记方法,其中,所述偏旁检测步骤利用所述训练字符的所述至少一个训练样本以及所述偏旁数据集。12.根据权利要求11所述的手写登记方法,其中,所述偏旁手写构造步骤利用所述偏旁检测步骤的检测结果以及所述偏旁数据集;并且,所述虚拟样本构造步骤利用字符结构字典,所述字符结构字典包含至少一个条目,所述至少一个条目中的一个条目包括所述训练字符和相应偏旁的配对信息。13.根据权利要求11所述的手写登记方法,其中,所述偏旁手写构造步骤还包括基于笔划的拐点,将所述训练字符的所述至少一个训练样本的笔划分割为片段,并且基于所述偏旁数据集来组合所述片段。14.根据权利要求13所述的手写登记方法,其中,所述偏旁手写构造步骤还包括基于偏旁书写风格模板的组的笔划数信息和归一化笔划特征,来组合所述片段,其中,所述组包括与通过所述偏旁检测步骤获得的所述至少一个偏旁相对应的书写风格模板。1...

【专利技术属性】
技术研发人员:李建杰刘欣王亮
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1