乱笔顺库建立方法及联机手写汉字识别评测系统技术方案

技术编号:2931797 阅读:406 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种建立乱笔顺库的方法及联机手写汉字识别技术的评测系统。本发明专利技术方法,包括标准样本库的采集和乱笔顺库的生成,其特征在于,所述乱笔顺库是按照笔画的连通关系,对采集的联机手写汉字笔迹数据进行等价划分,分割出至少一个以上的部件后,再打乱每个部件内笔画的顺序生成的。本发明专利技术的评测系统,包括:存储设备,用于存储标准样本库和乱笔顺库;采集模块,用于采集标准样本库;转换模块,用于将联机汉字笔迹数据转化成一幅二值图像;分割模块,用于按照笔画的连通关系从二值图像中分割出至少一个以上的部件;生成模块,包括一用于打乱每个部件内笔画的顺序的单元,以及一用于打乱部件之间排列顺序的单元。

【技术实现步骤摘要】

本专利技术涉及手写汉字识别系统的评测方法,特别涉及一种建立乱笔顺库的方法及联机手写汉字识别技术的评测系统。
技术介绍
在手写识别研究领域,数据库的建设变得尤为重要,它是发展、评价和比较不同字符识别技术的必然要求。鉴于联机手写汉字识别的应用范围越来越广、参与联机手写识别技术研发推广的机构越来越多,国家质检总局于2002年7月颁布了国家标准《联机手写汉字识别技术要求与测试规程GB/T18790-2002》,因此,如何建立联机手写汉字识别汉字库,以对联机手写汉字识别技术进行客观公正的评测,变得越来越重要。在国外,联机手写数据库建设中最著名的是UNIPEN,它始于1992年,是由许多大学和公司,如Tetsu Fujisaki(IBM),Ronjon Nag(Lexicus),Sandy Benett(GO/EO),Dick Lyons(Apple),Yves Chauvin(NetID),Dave Reynolds and Dan Flickinger(HP),Isabelle Guyon(AT&T)and Lambert Schomaker(NICI),参与的联机手写数据库采集与评测的国际开放性项目,对其样本数据格式进行了统一规定,但是,其主要字符集为英文字符,没有中文汉字字符。目前,国外汉字库建设资料中,主要有ETL9和PE92,其中,ETL9是日本国家标准(脱机)汉字库,字符集为日本JIS第1级汉字2965个字符、平假名71个字符,采集对象为4,000个人,共607,200个样本字;PE92为韩国的脱机汉字库,其字符集为2350个KS5601字符,每个字符的200个样本保存为灰度或二值图片(pdi=200),在联机汉字库建设方面,国外还未见诸相关资料、报道或介绍。在国内,乱笔顺样本库的建立为随机打乱笔顺方法(详见国家标准GB/T18790-2002),即对整个字的所有笔画进行随机排列,得到打乱笔顺的样本,从而建立乱笔顺样本库,然后,在此基础上评测联机手写汉字识别系统。这种方法没有很好地利用汉字的结构特征,导致所产生的乱笔顺样本不能如实地反映书写者的书写习惯,其明显的弊端是用这种方法产生的乱笔顺样本,会出现不同偏旁部首之间笔顺的交叉打乱,而在实际书写时,除非故意书写者不会还没写完一个偏旁部首就着手写下一个偏旁部首,因此这种乱笔顺样本显然不能反映书写者的书写习惯,影响了识别系统的识别率,从而不能对联机手写汉字识别技术进行客观公正地评测。
技术实现思路
本专利技术的目的在于提供一种建立乱笔顺库的方法,解决现有乱笔顺库建立方法中包含了在一般书写时不可能出现的不同偏旁部首之间笔顺的交叉打乱的缺陷,本专利技术的另一目的还在于提供一种联机手写汉字识别技术的评测系统,以克服现有乱笔顺库所导致的无法合理评测联机手写汉字识别技术的不足。本专利技术提供的一种建立乱笔顺库的方法,包括标准样本库的采集和乱笔顺库的生成,所述乱笔顺库是按照笔画的连通关系,对采集的联机手写汉字笔迹数据进行等价划分,分割出至少一个以上的部件后,再打乱每个部件内笔画的顺序生成的。作为建立乱笔顺库的方法的一种改进,在打乱每个部件内笔画的顺序之前或之后,还包括打乱部件之间排列顺序的步骤。所述的部件是将联机汉字笔迹数据转化成一幅二值图像后,深度优先搜索二值图像分割得到的连通分量。本专利技术提供的联机手写汉字识别技术的评测系统,包括一计算机,该计算机包括一存储设备,用于存储标准样本库和乱笔顺库;和一采集模块,用于采集标准样本库;该计算机还包括转换模块,用于将联机汉字笔迹数据转化成一幅二值图像;分割模块,用于按照笔画的连通关系从二值图像中分割出至少一个以上的部件;生成模块,包括一用于打乱每个部件内笔画的顺序的单元。所述生成模块还包括一用于打乱部件之间排列顺序的单元。本专利技术的优点在于本专利技术建立乱笔顺库的方法,基于汉字的结构特征以及书写习惯,对原始样本进行分割,得到分割后的部件;然后以部件为基元,将同一部件内的笔顺、部件之间排列顺序随机打乱,得到一种新的乱笔顺库,不会出现如附图3中(e)、(f)、(g)所示的不同部件之间笔画的交叉打乱情况,例如,(e)中左边“口”还未写完就开始写右边“艹”中的竖(笔画2到3的突变);(f)中的笔画1到2、5到6、6到7,以及(g)中的笔画2到3、3到4、5到6都存在这种交叉打乱情况;避免了正常书写条件下不会出现一个部件还没写完就开始书写另一部件的情况。本专利技术联机手写汉字识别技术的评测系统,在本专利技术的乱笔顺库的基础上评测联机手写汉字识别技术,能更客观地评测联机手写汉字识别技术,为应用系统的集成和成果推广提供科学依据,以促进联机手写汉字识别技术的交流与提高,推动成果的应用推广和产业化。附图说明图1是生成乱笔顺样本库的流程图。图2是联机汉字样本“哎”的部件分割示意图。图3是联机汉字样本“哎”的乱笔顺样本,其中,(a)是未打乱的原始样本;(b)、(c)和(d)是本专利技术可能生成的乱笔顺样本;(e)、(f)和(g)是本专利技术乱笔顺样本中不会出现的不符合书写习惯的乱笔顺样本。具体实施例方式为了更好地理解本专利技术,下面结合附图和具体实施方式进一步说明本专利技术乱笔顺库的建立过程及评测系统。(1)首先,由书写者用压力式手写板和采集模块书写规定测试字符样本,建立标准样本库。联机手写汉字识别的对象,也即识别系统的输入,是表示成一系列坐标点的手写汉字。这些坐标点是对书写时笔尖运动的轨迹进行时域采样得到的。这些记录单个汉字的所有坐标点的数据称之为POT数据块,即联机手写汉字笔迹数据。具体地说,每个POT数据块中包含一个手写汉字的字型采样数据和相应的汉字内码等信息。在GB/T18790-2002中,对POT数据块的格式进行了统一规定。采集时,每位书写者用压力式手写板和采集模块对测试字符集上的每个字符书写一遍,按GB/T18790-2002规定的格式保存为一个样本文件,称为一套样本,由所有书写者的样本文件组成标准样本库。例如,我们在2003年度863计划联机手写汉字识别评测中,根据评测组制定的测试大纲,采集并建立了60套联机手写汉字样本库。样本的字符集范围是国家标准GB18030-2000中的全部27533个汉字字符和62个常用的数字字母,共采集了1,094,910字,其中数字、字母、GB18030双字节2区汉字字符各采集了60套,GB18030双字节3、4区和四字节区汉字各采集了30套。在此基础上,建立了10套乱笔顺样本库(共275,330字),成功地完成了对各参评系统的评测。(2)然后,在标准样本库中随机选取规定套数的汉字字符样本(用于建立乱笔顺库),经过转换模块,将联机汉字样本的笔迹数据转化成二值图像。笔迹数据转化为二值图像的算法描述如下 输入联机汉字样本的笔迹数据(POT数据块);输出联机汉字样本的二值图像;步骤Step 1.生成一幅缺省的二值图像,其宽度和高度分别是联机汉字样本的宽度W和高度H,将其所有像素值均初始化为255。Step 2.读取POT数据块中的总笔画数,假设为N。Step 3.初始化循环变量i=1;Step 4.若i>=N,则说明所有笔画处理完毕,则转Step 9;Step 5.初始化循环变量j=1;Step 6.对于当前第i个笔画Si本文档来自技高网
...

【技术保护点】
一种建立乱笔顺库的方法,包括标准样本库的采集和乱笔顺库的生成,其特征在于,所述乱笔顺库是按照笔画的连通关系,对采集的联机手写汉字笔迹数据进行等价划分,分割出至少一个以上的部件后,再打乱每个部件内笔画的顺序生成的。

【技术特征摘要】

【专利技术属性】
技术研发人员:唐胜钱跃良林守勋李锦涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利