当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于骨架的抗噪声汉字特征提取方法技术

技术编号:10662381 阅读:184 留言:0更新日期:2014-11-20 09:28
本发明专利技术公开了一种基于骨架的抗噪声汉字特征提取方法,对文本灰度图像进行平滑、图像去噪处理,并进行二值化。对二值化图像进行下采样,转化为点云模型。在原二值化图像上进行腐蚀操作得到粗中轴。基于该中轴进行PCA分析,得到分裂结果。对分裂结果进行合并,并对合并后点云类型进行后处理。对分类后的点云进行B样条曲线拟合,得到骨架。将汉字图像信息转化为点云模型,降低了噪声等因素对汉字骨架提取的影响;使用B样条曲线拟合骨架,可以较好的保持原始汉字的特征;直接对原始汉字图像进行处理,不需要进行归一化预处理,降低了汉字骨架提取的难度,提高了效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,对文本灰度图像进行平滑、图像去噪处理,并进行二值化。对二值化图像进行下采样,转化为点云模型。在原二值化图像上进行腐蚀操作得到粗中轴。基于该中轴进行PCA分析,得到分裂结果。对分裂结果进行合并,并对合并后点云类型进行后处理。对分类后的点云进行B样条曲线拟合,得到骨架。将汉字图像信息转化为点云模型,降低了噪声等因素对汉字骨架提取的影响;使用B样条曲线拟合骨架,可以较好的保持原始汉字的特征;直接对原始汉字图像进行处理,不需要进行归一化预处理,降低了汉字骨架提取的难度,提高了效率。【专利说明】
本专利技术涉及图像处理与模式识别
,具体为一种鲁棒的基于骨架的汉字特 征自动提取的方法。
技术介绍
汉字的识别是文字识别的一个领域。由于汉字字库庞大,且汉字字形较多,无法像 英文等字母型文字一样具有较简单的识别算法,因此对汉字的识别一直是比较困难的应用 研究领域。汉字的识别一般分为印刷体汉字识别和手写体汉字识别,对于印刷体的识别研 究较多,但是手写体由于具有差异性,因此识别率较低。 对于汉字的识别,特征提取是识别系统中最重要的环节之一。能够提取不同形态、 不同风格情况下的良好的特征是当前汉字识别中的研究重点之一。传统的研究范围里,方 向特征被广泛的用来提取汉字的特征,但是方向特征需要对汉字进行方向的规范化并建立 弹性网格,而且对不同形态的手写汉字识别较为困难,单纯的基于方向特征的汉字特征提 取无法满足实际使用的需求。 另一种特征提取的方向是基于汉字骨架的方法。汉字的骨架能够较强的表征出 汉字的形状拓扑结构,并且能够较好的保持几何性质,同时还能够显著的降低计算和匹配 字库的难度。虽然汉字骨架的提取可以用来表现汉字特征,但是由于汉字尤其是手写汉字 具有较强的差异性和低质性,因此对汉字的骨架进行较高质量的提取依然是当前的一个难 题。较多的方法将关注点放在汉字轮廓的提取和处理上,另外一些方法使用形态学中的腐 蚀法,不能较好的处理噪声、稀疏、断裂等低质量的汉字情形。
技术实现思路
为解决现有技术存在的不足,本专利技术公开了一种基于骨架的抗噪声汉字特征提取 方法,针对汉字尤其是低质汉字的差异性等特点,使用点云模型来覆盖汉字,点云模型具有 稀疏性、不连通性,并且能够较好的降低噪声对特征骨架提取的影响。通过转化为点云模型 进行骨架的提取,使用主成分分析法进行"分裂-合并"分类处理,最后使用最小平方距离 方法拟合曲线。降低了噪声等因素对汉字骨架提取的影响,并合理的对汉字笔画进行分类 和曲线拟合,最后得出较为光顺的骨架特征。 为实现上述目的,本专利技术的具体方案如下: -种基于骨架的抗噪声汉字特征提取方法,包括以下步骤: 步骤一:将需要处理的文本的灰度图像进行预处理,包括对灰度图像进行平滑处 理,并将灰度图像进行二值化处理; 步骤二:对二值化处理后的灰度图像进行下采样,生成点云模型数据; 步骤三:对二值化处理后的灰度图像进行腐蚀操作得到粗中轴点集; 步骤四:基于该中轴点集依据分裂条件进行PCA分析分裂,得到分裂结果; 步骤五:对分裂结果进行合并,并对合并后交叉点处的点进行后处理; 步骤六:对步骤五处理后的点云数据进行B样条曲线拟合,得到作为汉字特征的 骨架。 所述步骤一中具体包括: 对扫描获取到的文本的灰度图像进行平滑处理,然后对平滑处理之后的图像进行 二值化操作转化为只有黑色和白色的二值图像,其中白色像素为背景颜色,黑色像素为前 景汉字颜色,平滑处理的处理方法为使用OpenCV的cvSmooth方法对邻域进行高斯平滑。 所述步骤二中具体包括: 对二值化处理后的图像进行下采样,采样仅仅在黑色像素上进行,选取设定的采 样比例将图像转化为点云模型数据,每一个被采样的像素点的横向和坚向坐标组成点云数 据的一个点坐标。 所述步骤三中具体包括: 使用腐蚀核对二值化处理后的灰度图像的像素点进行腐蚀集合操作,直到达到终 止腐蚀的条件,得到最终的粗中轴点集; 所述终止腐蚀的条件为:二值化处理后的图像中当前点周围有八个邻接点,判断 当前点的任意两个邻接黑色点互相之间是否连通,如果不连通,则表示是中轴点,否则不是 中轴点。 所述步骤四中分裂条件为: 利用对局部相邻的两个圆内的点云子集点进行PCA分析得到的两个局部主方向 的夹角α来设置分裂条件。 所述步骤四中PCA分析分裂,具体包括: 从粗中轴点集中任意选取一个未处理的点,计算局部主方向(Main Local Direction,MLD),如果当前局部主方向Vi与下一点局部主方向Vj的处理结果为-1 (当Vi 与Vj的夹角大于θ (Θ为预先定义的转折角度)),则是转折点,否则不是,继续沿中轴点搜 寻下一个PCA中心点进行处理,如果搜索不到中轴点,则当前点为转折点,最后将任意一种 类型i的第一个PCA中心点和最后一个PCA中心点标记为起点x(i)和终点y (i),并把这 之间的点设为i类型,把这两端点之间的PCA中心点Center (i)、半径R(i)以及局部主方 向Vi记录下来作合并以及拟合之用,然后从粗中轴点集中再任意选一个点进行PCA分析分 裂,直到所有的点都已经被处理完毕,经过有限次迭代,最终将粗中轴点集中所有点都处理 完毕,得到最终的分裂集合。 所述步骤五具体包括: 记PCA分析过程中的最大PCA半径为MaxRadius,记某一分类i的端点x(i)和 y (i),两端点对应的PCA半径为Rx⑴和Ry (i),dist (X⑴,y (j))返回任意两端点的距离, 合并操作只发生在任意分类的端点处,通过判断端点处是否符合其中的任一合并条件,当 符合时,完成最后的合并操作。 所述合并条件包括: 条件一:对于分类i的两个端点X (i)和y (i),如果dist (X⑴,y⑴)〈= Rx (i) +Ry (i),且分类i的全部PCA中心点只有两端点,即中心点个数为2 (其他分类至少有 3个中心点),且有与两特征圆相交的第二种分类j的端点x(j)或y (j),则分类i和分类j 符合合并条件; 条件二:对于任意分类i和分类j,如果两类中任意的两端点,假设为分类i的x 端点和j类的y端点,满足x(i)与y(j)的连线形成的向量Vij与端点X的向量Vx夹角 小于θ (Θ为预先定义的转折角度)且分类i和分类j端点处的任意两点存在最大步长 不大于RectSize/16(R ectSize为点云中距离最远两点的欧式距离)的最小生成树,并且 (V(x(i)),V(y(j))的夹角属于或属于,则表示分类i和分类j符合 合并条件,其中Θ为预先定义的转折角度; 条件三:于任意分类i和分类j,如果两类中任意两端点,假设为i类的X端点和j 类的y端点,dist (X⑴,y (j))〈 = Rx(i)+Ry (j),且两个端点中y (j)不和自身X端点相交、 X (i)不和自身y端点相交,同时两端点也不和第三种分类的PCA单位特征圆相交,且分类i 和分类j端点处的任意两点存在最大步长不大于RectSize/16的最小生成树,则分类i和 分类j符合合并条件。 本文档来自技高网
...
一种基于骨架的抗噪声汉字特征提取方法

【技术保护点】
一种基于骨架的抗噪声汉字特征提取方法,包括以下步骤:步骤一:将需要处理的文本的灰度图像进行预处理,包括对灰度图像进行平滑处理,并将灰度图像进行二值化处理;步骤二:对二值化处理后的灰度图像进行下采样,生成点云模型数据;步骤三:对二值化处理后的灰度图像进行腐蚀操作得到粗中轴点集;步骤四:基于该中轴点云依据分裂条件进行PCA分析分裂,得到分裂结果;步骤五:对分裂结果进行合并,并对合并后交叉点处的点进行后处理;步骤六:对步骤五处理后的点云进行B样条曲线拟合,得到作为汉字特征的骨架。

【技术特征摘要】

【专利技术属性】
技术研发人员:周元峰朱东方
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1