当前位置: 首页 > 专利查询>清华大学专利>正文

基于阿拉伯字符集的印刷体字符识别方法技术

技术编号:2932150 阅读:373 留言:0更新日期:2012-04-11 18:40
基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明专利技术在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。

【技术实现步骤摘要】

属于字符识别领域。
技术介绍
我国的维吾尔、哈萨克、柯尔克孜等少数民族的文字采用阿拉伯字符集体系中的字符来书写,其文字构成规则与书写形式变化均与阿拉伯文相一致。因此,对维吾尔、哈萨克、柯尔克孜、阿拉伯等字符的识别可以运用统一的方法进行处理。在本专利技术中,把维吾尔、哈萨克、柯尔克孜、阿拉伯字符识别统称为基于阿拉伯字符集的字符识别。采用阿拉伯字符集书写的维吾尔、哈萨克、柯尔克孜、阿拉伯等文字均由30~40个基本字母构成。根据在词中出现的位置的不同,每个基本字母都有1-4种不同的书写形式——首写形式、中间形式、尾写形式、独立形式。于是,在实际文本中,30~40个基本字母就可以演化成100多个字符形式(图5)。基于阿拉伯字符集的文字行文方向为从右到左,字符前后相连形成一个或几个连体字符段,在连体段中,字符沿着基线相连(图6)。维吾尔文、哈萨克文和柯尔克孜文是我国重要的少数民族文字,开展维吾尔、哈萨克、柯尔克孜字符识别技术研究是中文多文种信息处理系统发展的迫切需要。而以阿拉伯字符作为书写载体的阿拉伯语是世界上主要语言之一,使用人口超过3亿,阿拉伯字符识别系统具有迫切的现实需求和广泛的应用前景。目前,从总体上说,针对阿拉伯字符集的字符识别的研究要远远落后于其它广泛使用的文字(如拉丁字母、汉字、日文等)字符识别的研究,现有的主要方法可以分成两大类1.结构方法。对于给定的字符集,抽取数量有限的不可分割的最小子模式(基元),将这些基元按照特定的顺序和规则组合起来可以构成该字符集中的任何字符。这样,利用字符结构与语言之间的相似性,字符识别可以借助形式语言学的文法(包含了句法规则)来描述和剖析字符的结构。由于基于阿拉伯字符集的文本仅由30多个基本字母拼写而成,而且阿拉伯字符集中的字符笔划往往不多,结构不是非常复杂,所以按照拼音文字常用的方法,采用结构分析方法来识别字符,在理论上可期望得到非常高的识别率。迄今为止,绝大多数学者的研究均侧重于该类方法。但由于结构方法本身的局限性(易受各种噪声影响,鲁棒性不强)和阿拉伯字符集的特殊性(大量相似字符的存在),所以,此种方法的实际应用效果极不理想。2.统计方法。抽取字符的统计特征,每个字符模式用一个特征向量表示,它被看成是特征空间中的一个点。识别的过程就是运用统计分类器在特征空间中将待识别字符模式正确地划分到所属的类别中。该方法具有抗噪性能好,可推广性强的优点。但如何选取简洁有效的特征来表示字符以及如何设计合理的分类器,是直接影响识别性能的关键环节。目前虽有少量基于统计方法的阿拉伯字符识别技术见诸文献,但选用的特征基本局限于矩特征,分类判决则采用象欧氏距离这样比较简单的准则。因为特征的局部刻画能力严重不足,又未能充分利用特征空间的高阶信息,现有统计方法的识别性能距离实用需求尚有不小差距。字符笔划数少且笔划构成以弧线为主,笔划结构信息欠丰富且不易提取、字符集中相似字子集多,相似程度极高、字符宽度和高度都不具有一致性、字符左右边界存在不确定性、不同字体间字型差异大,某些字体接近手写草体、常用字号偏小等特点给基于阿拉伯字符集的字符识别研究带来了极大挑战。本专利技术提出了一种基于统计模式识别方法针对阿拉伯字符集的多字体多字号印刷体字符识别的完整的方法。根据字符本身的特点(空间区域信息、字符形式、字符构成部件信息)进行预分类,提取方向特征,经特征优化处理,由修正二次鉴别函数完成分类判决,实现了高性能的,这是目前所有其他文献里都没有使用过的方法。
技术实现思路
本专利技术的目的在于实现一个多字体多字号的基于阿拉伯字符集的印刷体字符识别的方法。以单个印刷体字符作为处理对象,首先对字符对象进行预分类处理,确定其所属的字符类别子集,然后提取能很好反映字符特点的方向特征,再经过特征整形和LDA(线性鉴别分析)方法、K-L变换对特征进行优化,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。由此,可以得到极高的单字识别正确率。根据该方法,实现了一个基于阿拉伯字符集的印刷体字符识别系统。作为一个基于阿拉伯字符集的印刷体字符识别系统还包括单字样本的采集,即系统首先扫描输入印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文的文本,采用自动的方式进行字符切分和字符预分类信息提取,得到单字符的训练样本库和相应的预分类信息集。利用预分类信息集,对字符全集进行初始划分,形成字符类别子集库;利用采集建立的训练样本数据库,进行方向特征的抽取和特征优化,得到训练样本的特征数据库。在训练样本的特征数据库的基础上,通过实验确定分类器的参数。对未知的输入字符样本,先对其进行预分类以确定其所属字符类别子集,然后采用同样的方法抽取特征,再送入分类器与特征库进行分类比较,从而判断输入字符的类别属性。本专利技术由以下几部分组成预分类、特征提取、特征优化、分类器设计。1.预分类预分类信息I空间区域信息ZI(Zone Information)因阿拉伯字符集中的字符的高度各不相同,在垂直方向上占据的空间区域也不一样。文本行的引线(Headline)和基线(Baseline)将空间区域在垂直方向上分为三个区,从上到下依次为引线上方的上层区域(Upper Zone)、基线和引线之间的基准区域(Base Zone)、基线下方的下层区域(Lower Zone),如图7所示。根据占据区域的不同,可将实际文本中出现的字符分为5种类型,通过对ZI赋予不同的数值来加以区分。ZI的5种合法取值对应于字符的5种类型,如下表所示表1ZI的取值与对应的字符占据空间区域的关系 预分类信息II字符形式信息FI(Form Information)由于阿拉伯字符集中的基本字母在实际文本表现为4种字符形式首写形式(InitialForm)、中间形式(Medial Form)、尾写形式(Final Form)和独立形式(Isolated Form),所以出现在实际文本中的每个字符必定为这4种字符形式中的一种。假设χ为实际文本中的一个字符,判断其字符形式的准则为若χ在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则χ为首写形式字符,令FI=1表示;若χ在其右侧和左侧均与其它字符直接相连,则χ为中间形式字符,令FI=2表示;若χ在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则χ为尾写形式字符,令FI=3表示; 若χ在其右侧和左侧均不与其它字符直接相连,则χ为独立形式字符,令FI=4表示。在以上准则中,两个字符“直接相连”是指这两个字符在基线位置处连结在一起,中间不存在空隙。这样,根据字符形式信息,可将实际文本中出现的字符集划分为4个不同的子集。预分类信息III构成部件信息CI(Component Information)对阿拉伯字符集中字符的连通性进行分析可知,字符可根据其部件的构成情况分成两类1)由主体部件和附加部件两部分重叠组成的字符,如图7中第1、2、5、7、12、13、15字符,令CI=1来表示;2)仅由一个不可分割的部件构成的字符,令CI=2来表示,如图7中第3、4、6、8、9、10、11、14、16字符。根据部件信息,整个字符集可划分成2个子集。基于上述分析,一组包含区域信息ZI、字符形式信息FI和字符构成部件信息CI的预分本文档来自技高网
...

【技术保护点】
基于阿拉伯字符集的印刷体字符识别方法,其特征在于,它在对字符对象进行必要预处理后,首先对输入的单个字符进行预分类,将其划分到恰当的字符类别子集中去,然后提取能很好反映字符结构特点的方向特征,在此基础上,利用特征整形、LDA变换和K-L变换提取最具鉴别性的优化特征,把该特征送入MQDF分类器判定字符所属类别;在由图像采集设备和计算机组成的系统中,它依次含有以下步骤:    训练阶段:    第1步:在计算机中设定以下参数:    字符类别总数c;    归一化后字符高度M、字符宽度N;    基本特征平面分块参数u↓[0]、v↓[0]、u↓[1]、v↓[1],其中    u↓[0]为基本特征平面中子区域的高度,    v↓[0]为基本特征平面中子区域的宽度,    u↓[1]为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数,    v↓[1]为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数;    原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0,1);    特征变换时LDA截取维数r↓[1]、K-L变换截取维数r↓[2];    第2步:字符样本的采集    第2.1步:用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本,利用已有算法进行去噪声、二值化等必要的预处理;    第2.2步:对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符,再对每个字符的图像标定其对应的正确的字符内码,然后把相同字符类别对应的原始字符图像提取出来,保存为用以训练和测试的单字样本集;    第2.3步:定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息,保存标定结果,形成字符类别预分类信息集;它依次含有以下步骤:    第2.3.1步:形成字符空间区域信息,用ZI表示:    用文本行的引线Headline和基线Baseline将字符空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域Upper  Zone、基线和引线之间的基准区域Base  Zone、基线下方的下层区域Lower  Zone;    检测输入字符x在三个空间区域中的分布情况,根据x占据的区域,给ZI赋值如下:    若x仅占据上层区域,则ZI=1;    若x同时占据上层区域和基准区域,则ZI=2;...

【技术特征摘要】

【专利技术属性】
技术研发人员:丁晓青王华靳简明彭良瑞刘长松方驰哈力木拉提
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1