一种汉字字体二值化切片图像的提取方法及系统技术方案

技术编号:37149449 阅读:15 留言:0更新日期:2023-04-06 22:03
本发明专利技术公开了一种汉字字体二值化切片图像的提取方法及系统,包括:对获取的RGB习字格书法图片进行处理得到灰度图片;从灰度图片提取最大的四边形轮廓,并对轮廓之外的噪声背景进行屏蔽处理;采用LSD直线检测算法在已屏蔽噪声背景的图片中提取水平和竖直方向上的习字格边框线条,剔除习字格虚线噪声的影响,得到水平习字格线条标记图和竖直习字格线条标记图;确定实际的习字格交叉关键点,得到各习字格的RGB切片图;对各切片图的灰度值进行聚类分析,得到二值化切片图像。本发明专利技术能够规避习字格辅助虚线、各种涂抹、拍照光线等因素的影响,对RGB习字格书法图片进行准确切片,同时对切片图进行二值化,准确地提取出手写汉字字体。体。体。

【技术实现步骤摘要】
一种汉字字体二值化切片图像的提取方法及系统


[0001]本专利技术属于图像处理
,具体涉及一种汉字字体二值化切片图像的提取方法及系统。

技术介绍

[0002]中国书法是一门独特的汉字艺术,是一门可以持续而广泛地表现民族精神和时代精神的艺术。但是,现阶段传统的书法教育主要依靠教师手把手教学,极度依赖教师的教学方式和教学资源。因此,通过智能化的手段去评价学生手写的汉字,来给出公平、客观性的建议去提高学生书法水平的智能化评价系统尤为重要。
[0003]初学者练习书法一般会使用习字格练习纸,如米字格或田字格的练习纸。在现有书法智能化评价系统中,需要对上传的书法图片进行切片,分割为单个习字格的图像,从而能依次根据智能化的方案去评价每个单字。但是在图片切割的过程中,无论是米字格或田字格中的辅助虚线,还是练习者书写的字体,甚至包括一些纸面上的涂抹、更改等等因素,都会给图片的准确分割带来巨大的影响与挑战,同时还要考虑在拍摄照片时,光线以及拍照设备带来的差异性。然而现有的书法智能化评价系统并不能规避上述影响因素,最终造成因书法图片切割不准确而难以给本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种汉字字体二值化切片图像的提取方法,其特征在于,包括:获取RGB习字格书法图片,并对所获取的RGB习字格书法图片进行处理,得到灰度图片;在灰度图片中提取最大的四边形轮廓,并将轮廓之外的区域作为噪声背景进行屏蔽处理,得到已屏蔽噪声背景的图片;采用LSD直线检测算法在已屏蔽噪声背景的图片中分别提取水平和竖直方向上的习字格边框线条,得到水平边框线条二值化图和竖直边框线条二值化图;利用Sobel算子提取习字格边缘线条,得到粗略的二值化习字格外框掩模图,将水平边框线条二值化图和竖直边框线条二值化图分别与粗略的二值化习字格外框掩模图进行与操作,同时设置阈值,消除习字格中的短线段,得到水平边框线条二值化优化图和竖直边框线条二值化优化图;检测水平边框线条二值化优化图和竖直边框线条二值化优化图中相邻格子线条之间距离的比例,剔除习字格中的冗余线条,得到水平习字格线条标记图和竖直习字格线条标记图;根据水平习字格线条标记图和竖直习字格线条标记图确定实际的习字格交叉关键点,得到各习字格的RGB切片图;对各习字格的RGB切片图的灰度值进行K

means聚类分析,得到汉字字体的二值化切片图像。2.根据权利要求1所述的汉字字体二值化切片图像的提取方法,其特征在于,对所获取的RGB习字格书法图片进行的处理包括:对所获取的RGB习字格书法图片进行均值滤波,得到预处理图片;降低预处理图片的质量,质量降低比率v为:v=y
w
/y
n
;式中,y
w
表示预处理图片的宽度分辨率,y
n
表示降低质量后的预处理图片的宽度分辨率;对降低质量的预处理图片进行对比度和锐化度的增强,得到图片g0,然后对图片g0进行突出颜色色差的灰度化处理,得到图片g1:g1(i, j)= Max(R(i,j),G(i,j),B(i,j));对图片g1进行高斯模糊得到图片g2:;式中,(i, j)表示二维图片像素点的坐标,g1(i, j)表示像素点坐标(i, j)经过对比度和锐化度增强后的像素值,g2(i, j)表示像素点坐标(i, j)经过高斯模糊后的像素值,Max(R(i,j),G(i,j),B(i,j))表示图片g0在该点坐标中,三通道灰度值中的最大值,R(i,j)表示图片g0在该点坐标的R通道值,G(i,j)表示图片g0在该点坐标的G通道值,B(i,j)表示图片g0在该点坐标的B通道值,(u, v)表示卷积核的坐标,r表示卷积核半径,s(i+ u,j + v)表示图片g1在该坐标的像素值,f表示高斯滤波函数,f(u, v)表示卷积核的在(u, v)上的权重值;对图片g2进行形态学的闭操作得到图片g3,然后将g1/g3的结果进行归一化,得到突出颜色色差以及降低光线明暗影响的灰度图片G0。
3.根据权利要求1所述的汉字字体二值化切片图像的提取方法,其特征在于,在灰度图片中提取最大的四边形轮廓的具体方法包括:采用LSD直线检测算法提取灰度图片中习字格线条直线图,寻找到一个最大的四边形轮廓。4.根据权利要求2所述的汉字字体二值化切片图像的提取方法,其特征在于,获得水平边框线条二值化优化图和竖直边框线条二值化优化图的具体方法包括:计算图片g0中每个像素点的三个通道灰度值的方差:;式中,Dx
ij
表示像素点坐标(i, j)的R、G、B三个通道灰度值的方差,R
i, j
表示像素点坐标(i, j)的R通道值,G
i, j
表示像素点坐标(i, j)的G通道值,B
i, j
表示像素点坐标(i, j)的B通道值,mean(x
ij
)表示像素点坐标(i, j)的R、G、B三通道值的平均值;将Dx
ij
归一化到0

255范围,同时利用Sobel算子提取习字格边缘线条,得到粗略的二值化习字格外框掩模图Mask,将水平边框线条二值化图H(x,y)和竖直边框线条二值化图V(x, y)分别与Mask进行与操作,同时设置阈值,消除习字格中的短线段,初步去除干扰线段的影响,得到水平边框线条二值化优化图H...

【专利技术属性】
技术研发人员:徐占洋张家瑞秦飞扬杨盛凯徐益鸣马彪熊宁阳李丁宇王晶弘汤正博陆斌林巍
申请(专利权)人:江苏少儿春互联教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利