当前位置: 首页 > 专利查询>浙江大学专利>正文

书法字识别方法技术

技术编号:8683120 阅读:172 留言:0更新日期:2013-05-09 03:06
本发明专利技术公开了一种书法字识别的方法。搜集单个书法字图像,人工标注单个书法字图像对应的汉字语义,对单个书法字图像进行二值化、去噪和归一化处理后提取单个书法字图像中书法字的特征信息,存入特征数据库,特征信息包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、投影值、轮廓点,之后对待识别的单个书法字图像也进行处理,提取待识别书法字的特征信息,初步筛选后,再进行形状匹配比较,筛选出特征数据库里与待识别书法字形状相似的书法字,最后进行权重计算、合并汉字语义相同书法字图像,给出识别结果。本发明专利技术计算量小,能够在较短时间内给准确的识别结果;对用户所提供的待识别书法字图像没有具体要求。

【技术实现步骤摘要】

本专利技术涉及计算机数字图像分析,尤其涉及一种书法字的识别方法。
技术介绍
中国书法是ー门古老的汉字的书写艺术,从甲骨文、石鼓文、金文(钟鼎文)演变而为大篆、小篆、隶书,至定型于东汉、魏、晋的草书、楷书、行书等,书法一直散发着艺术的魅力。以汉字为依托,是中国书法区别于其他种类书法的主要标志。然而,由于长期的历史变革,又许多汉字的古今字形发生了非常大的改变,有些古代字体,如小篆等,普通用户大多无法辨认。为了解决这ー问题,就需要有一种书法字识别的方法,能快速把书法作品转换成为文本格式。目前,对于书法字的识别技术研究甚少,多采用基于形状内容的图像匹配技术,书法字在本质上是手写体汉字,因此手写体识别是与书法字识别相关的研究,与书法字识别比较接近的是脱机手写体识别。脱机手写体汉字识别又可分为有限字符集的识别和无约束的手写体汉字识别两类。有限字符集上的手写体识别多是采用模式识别或者分类的方法,用于イ—目封识别(Proceedings of the Fifth International Conference on DocumentAnalysis and Recognition(ICDAR1999),1999:737-740)、车票识别(光电子技术,2003,23(4) =268270)和银行票据识别(计算机工程与应用,2003,39 (30) =219222.)等。无约束的手写体识别多采用模式识别的方法将字符与数据库中的模板进行匹配,找出最接近的模板,该模板代表的汉字即为识别结果。
技术实现思路
本专利技术的目的是为了克服上述现有方法对于用毛笔书写的书法字识别效果差,提供一种。一种,包括以下步骤:I)搜集互联网上的单个书法字图像,或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像,得到单个书法字图像集合,然后标注单个书法字图像对应的汉字语义,存入特征数据库;2)对单个书法字图像进行ニ值化、去噪、归ー化处理,ニ值化时,先将单个书法字图像转为灰度图像后使用自适应迭代法,通过将新阈值置为旧阈值以上及以下两区平均值的中点不断迭代求取最佳阈值,ニ值化后的单个书法字图像为白底黒字的ニ值化颜色矩阵,微小区域的噪声使用数学形态学的方法去除,微小区域的斑点和划痕使用开运算去除,字体中的小孔洞使用闭运算填充,所述的归一化采用基于笔画穿越数均衡的非线性归一化方法,单个书法字图像归一化的目标大小是45X45像素点阵;3)将步骤2)处理后的单个书法字图像对应的书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点存入步骤I)的特征数据库,得到书法字识别特征数据库;4)将待识别书法字图像按照步骤2)进行ニ值化、去噪、归ー化处理,然后提取包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点的特征;5)利用待识别书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较书法字识别特征数据库里的数据,对书法字识别特征数据库里的单个书法字图像进行初步筛选,得到候选书法字图像;6)对候选书法字图像再利用书法字识别特征数据库里的书法字轮廓点的特征信息进ー步进行相似度计算,按相似度大小排列给出候选书法字图像;7)对步骤6)中按相似度大小排列给出的候选书法字图像进行权重计算,合并汉字语义相同的候选书法字图像,最后识别输出。所述的步骤2)中:单个书法字图像转为灰度图像时,假设某个像素点p顔色的RGB值为(p.red, p.green, p.blue),那么灰度值的计算公式为:p.grey=0.11 Xp.red+0.59Xp.green+0.30Xp.blue ;去噪时噪声块的最大尺寸被定义为3X3像素点,微小区域的噪声使用数学形态学的方法去除,其中的斑点和划痕使用开运算去除,字体中的小孔洞使用闭运算填充;归ー化时,令f (X,y)为归ー化之前M0XN0的单个书法字图像点阵,其中參数皆为自然数,Mtl表示单个书法字图像的像素宽度,Ntl表示单个书法字图像的像素长度,x=l,2,…M0,y=1,2,…N0,g(m,n)为归ー化之后M1XN1的单个书法字图像点阵,m=l,2,...M1,n=1,2,...N1,令d(x,y)为单个书法字点阵图像f(x,y)在点(x,y)的笔划密度函数,定义为:本文档来自技高网...

【技术保护点】
一种书法字识别方法,其特征在于,包括以下步骤:1)搜集互联网上的单个书法字图像,或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像,得到单个书法字图像集合,然后标注单个书法字图像对应的汉字语义,存入特征数据库;2)对单个书法字图像进行二值化、去噪、归一化处理,二值化时,先将单个书法字图像转为灰度图像后使用自适应迭代法,通过将新阈值置为旧阈值以上及以下两区平均值的中点不断迭代求取最佳阈值,二值化后的单个书法字图像为白底黑字的二值化颜色矩阵,微小区域的噪声使用数学形态学的方法去除,微小区域的斑点和划痕使用开运算去除,字体中的小孔洞使用闭运算填充,所述的归一化采用基于笔画穿越数均衡的非线性归一化方法,单个书法字图像归一化的目标大小是45×45像素点阵;3)将步骤2)处理后的单个书法字图像对应的书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点存入步骤1)的特征数据库,得到书法字识别特征数据库;4)将待识别书法字图像按照步骤2)进行二值化、去噪、归一化处理,然后提取包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点的特征;5)利用待识别书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较书法字识别特征数据库里的数据,对书法字识别特征数据库里的单个书法字图像进行初步筛选,得到候选书法字图像;6)对候选书法字图像再利用书法字识别特征数据库里的书法字轮廓点的特征信息进一步进行相似度计算,按相似度大小排列给出候选书法字图像;7)对步骤6)中按相似度大小排列给出的候选书法字图像进行权重计算,合并汉字语义相同的候选书法字图像,最后识别输出。...

【技术特征摘要】
1.种书法字识别方法,其特征在于,包括以下步骤: 1)搜集互联网上的单个书法字图像,或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像,得到单个书法字图像集合,然后标注单个书法字图像对应的汉字语义,存入特征数据库; 2)对单个书法字图像进行ニ值化、去噪、归ー化处理,ニ值化时,先将单个书法字图像转为灰度图像后使用自适应迭代法,通过将新阈值置为旧阈值以上及以下两区平均值的中点不断迭代求取最佳阈值,ニ值化后的单个书法字图像为白底黒字的ニ值化颜色矩阵,微小区域的噪声使用数学形态学的方法去除,微小区域的斑点和划痕使用开运算去除,字体中的小孔洞使用闭运算填充,所述的归一化采用基于笔画穿越数均衡的非线性归一化方法,单个书法字图像归一化的目标大小是45X45像素点阵; 3)将步骤2)处理后的单个书法字图像对应的书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点存入步骤I)的特征数据库,得到书法字识别特征数据库; 4)将待识别书法字图像按照步骤2)进行ニ值化、去噪、归ー化处理,然后提取包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点的特征; 5)利用待识别书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较书法字识别特征数据库里的数据,对书法字识别特征数据库里的单个书法字图像进行初步筛选,得到候选书法字图像; 6)对候选书法字图像再 利用书法字识别特征数据库里的书法字轮廓点的特征信息进一步进行相似度计算,按相似度大小排列给出候选书法字图像; 7)对步骤6)中按相似度大小排列给出的候选书法字图像进行权重计算,合并汉字语义相同的候选书法字图像,最后识别输出。2.据权利要求1所述的ー种书法字识别方法,其特征在于,所述的步骤2)中:单个书法字图像转为灰度图像时,假设某个像素点P颜色的RGB值为(p.red, p.green, p.blue),那么灰度值的计算公式为:p.grey=0.11 Xp.red+0.59Xp.green+0.3Xp.blue ; 去噪时噪声块的最大尺寸被定义为3X3像素点,微小区域的噪声使用数学形态学的方法去除,其中的斑点和划痕使用开运算去除,字体中的小孔洞使用闭运算填充;归一化时,令f(x,y)为归ー化之前MtlXNtl的单个书法字图像点阵,其中參数皆为自然数,Mtl表示单个书法字图像的像素宽度,Ntl表示单个书法字图像的像素长度,x=l,2,…Mc^y=I, 2,…N。,g(m,n)为归ー化之后M1XN1的单个书法字图像点阵,m=l,2,…M1, n=l, 2,…N1,令d(x, y)为单个书法字点阵图像f(x,y)...

【专利技术属性】
技术研发人员:庄越挺吴江琴林媛高鹏程夏洋
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1