当前位置: 首页 > 专利查询>中南大学专利>正文

一种汉字笔画拆分方法技术

技术编号:39317766 阅读:22 留言:0更新日期:2023-11-12 16:00
本发明专利技术公开了一种汉字笔画拆分方法,包括以下步骤:获取原始汉字图像并进行标准二值化处理,作为网络的输入;将汉字笔画按照形状结构特征划分为10个大类,构建笔画的类别标签;获取汉字信息,得到汉字类型、笔画类别和数量的先验信息构建先验特征层;将先验特征层与提取处理后汉字图像的图像特征进行融合,并对融合信息解码,最终通过多标签输出层输出笔画结果。本发明专利技术不仅显著提高了汉字笔画分割的准确性,而且降低了计算量,能够更好服务于下游任务。务。务。

【技术实现步骤摘要】
一种汉字笔画拆分方法


[0001]本专利技术涉及计算机视觉和深度学习
,尤其涉及的是一种基于多标签分割的汉字笔画拆分方法。

技术介绍

[0002]汉字的笔画分割能够提高计算机对汉字图像的认知,进而在书法教学评测、书画作品的美学评价和艺术考级等应用场景中发挥不可小觑的作用。
[0003]汉字笔画分割技术主要面临的难点是不同笔画之间的交叉点区域,交叉区域同时属于两个甚至多个笔画,但常规的图像分割方法每个像素点只能分为一类。因此,至今有关汉字笔画拆分的研究主要便是针对交叉点不同的处理方法展开的。如专利技术专利CN 103927537 A公开的一种自适应的汉字笔画交叉区域提取算法,其过利用汉字笔画交叉点到笔画轮廓的距离统计特征动态地获取分割点,得到将汉字笔画分割开来的最小交叉区域,适用于不同字体的笔画、笔画粗细不同的笔画和不同交叉结构的笔画,解决了固定大小、固定形状提取交叉区域存在的问题。
[0004]然而现有的方法中,无论是细化汉字使用骨架等信息提取笔画还是在深度学习网络中将交叉区域作为独立笔画新的一类,都会让笔画的原有信息的缺失。

技术实现思路

[0005]为解决上述技术问题,本专利技术提出了一种基于多标签分割的汉字笔画拆分方法。
[0006]本专利技术的目的通过以下技术方案实现:
[0007]本专利技术提供了一种汉字笔画拆分方法,旨在解决现有技术中软笔书法汉字笔画分割的准确性和效率问题。
[0008]一种汉字笔画拆分方法,所述方法包括如下步骤:
[0009]S1:获取汉字的汉字信息,构建先验特征信息表;所述汉字信息包括汉字类型信息、汉字包括的笔画类别信息和笔画数量信息;
[0010]S2:获得原始汉字图像,对原始汉字图像进行标准二值化得到处理后汉字图像,同时使用原始汉字图像的汉字类型信息在先验特征信息表中进行检索,从而输出原始汉字图像对应的汉字类型信息、笔画类别信息和笔画数量信息;原始汉字图像对应的汉字类型信息、笔画类别信息和笔画数量信息经过信息编码得到先验特征层,然后先验特征层与处理后汉字图像一起输入神经网络,进行神经网络的训练,得到训练好的神经网络;所述神经网络包括包含图像和先验特征层的输入层、提取处理后汉字图像的图像特征的编码模块、用于图像特征和先验特征层融合的融合模块、对融合信息解码并生成最终结构的解码模块和多标签输出层;
[0011]S3:将待拆分汉字图像进行标准二值化后得到处理后待拆分汉字图像,将待拆分汉字图像中汉字的汉字信息输入先验特征层,得到对应的待拆分汉字的汉字信息;将待拆分汉字的汉字信息和处理后待拆分汉字图像输入训练好的神经网络,训练好的神经网络一
次性输出处理后输出待拆分汉字图像中的所有笔画。
[0012]进一步的改进,所述笔画类别为10个大类,具体如下所示:
[0013][0014]进一步的改进,字符分割到的笔画的10个大类表示为S=s1,s2…
,s
10
;则待拆分汉字图像及待拆分汉字图像的映射关系如下:
[0015]S=N(P
stroke
)
[0016]其中,N代表网络函数,P
stroke
为待拆分汉字图,S代表网络的输出,其维数为(10,w,h),是10张与原始输入图像大小相同的每个类别的笔画结果,s
10
表示第10类;w表示输出图像的宽,h表示输出图像的高。
[0017]进一步的改进,所述提取处理后汉字图像的图像特征的编码模块采用DeepLab V3+分割网络结构中的ASPP结构,编码模块完成对处理后汉字图像的特征提取,然后融合模块将先验特征层和提取的图像特征进行拼合,得到融合后的特征层,解码模块将对融合后的特征层解码,通过降维和上采样得到与输入图片大小相同的特征图。最后,特征图通过多标签输出层将按照笔画类别输出待拆分汉字图像中的所有笔画。
[0018]进一步的改进,步骤S2中的数据标准二值化处理的具体步骤包括:
[0019]S21:原始汉字图像进行图像二值化处理,然后仅保留汉字部分得到二值化的图像;
[0020]S22:对二值化的图像进行大小归一化。
[0021]进一步的改进,所述步骤S1中,构建先验特征层的过程中,对汉字信息进行标准
化,具体计算公式如下:
[0022][0023][0024]其中,V
汉字类别信息
和V
笔画信息
分别代表先验特征层的汉字类型的笔画信息输入网络时标准化后的汉类别信息的值和笔画信息的值;V
info
是构建的先验特征信息表中所记录的汉字相关信息;n
character
是先验特征信息表中汉字编号的最大值;n
stroke
是笔画的最大阈值,max(V
layer
)代表拼合层的中值的上限,通常为1。
[0025]进一步的改进,n
stroke
≤15。
[0026]进一步的改进,所述步骤二中,训练神经网络时,通过最小化损失函数得到训练好的神经网络;其中损失函数的构建方法如下:
[0027]神经网络中多标签输出层所输出的内容是10个笔画类所对应的10维笔画掩码,判定多标签输出层中每个像素点的分类时,10个维度将独立计算并判定每一个像素点是否属于该类别笔画,计算公式如下:
[0028]r
p
=(o
p
≥λ)
×
1+(o
p
<λ)
×0[0029]其中o
p
是像素点某一维笔画类型的预测输出,λ为设定的判定阈值,r
p
指的是该像素的是否属于该类别笔画的判定结果;
[0030]将多分类问题化为多维度的二项分布问题,即设置像素点的每一类的标签只有两种可能:“本像素点是此类笔画”或者“本像素点不是此类笔画”,并以此构建适用的总损失函数,总损失函数L
S
定义如下:
[0031][0032][0033]其中,为某一类笔画所对应的输出第i维所对应的总损失函数,被分为分损失函数和两部分;σ是两种损失对应的权重,对于具体的分损失函数和具体定义如下:
[0034][0035][0036]其中代表像素点j对应的输出,是像素点j在标签中对应的概率值。
[0037]本专利技术的有益效果是:
[0038]1、本专利技术通过进行结合汉字的类型和笔画数作为先验知识,提出笔画类,构建神经网络和对应的损失函数,实现了更加高效的提取汉字笔画。
[0039]2、软笔书法汉字笔画分割是现有技术还涉及尚浅的方向,本研究为以后的书法智能教学、书画作品的美学评价和艺术考级等下游任务提供了有效的技术支持,具有较强的实际意义。
附图说明
[0040]利用附图对本专利技术做进一步说明,但附图中的内容不构成对本专利技术的任何限制。
[0041]图1为本专利技术的书法临本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汉字笔画拆分方法,其特征在于,所述方法包括如下步骤:S1:将笔画按照形状结构特征分为10个类别;获取汉字的汉字信息,基于所分的笔画分类方法构建先验特征信息表;所述汉字信息包括汉字类型信息、汉字包括的笔画类别信息和笔画数量信息;S2:获得原始汉字图像,对原始汉字图像进行标准二值化得到处理后汉字图像,同时使用原始汉字图像的汉字类型信息在先验特征信息表中进行检索,从而输出原始汉字图像对应的汉字类型信息、笔画类别信息和笔画数量信息;S3:原始汉字图像对应的汉字类型信息、笔画类别信息和笔画数量信息经过信息编码得到先验特征层,然后先验特征层与处理后汉字图像一起输入神经网络,进行神经网络的训练,得到训练好的神经网络;所述神经网络包括包含图像和先验特征层的输入层、提取处理后汉字图像的图像特征的编码模块、用于图像特征和先验特征层融合的融合模块、对融合信息解码并生成最终结构的解码模块和多标签输出层;S4:将待拆分汉字图像进行标准二值化后得到处理后待拆分汉字图像,并把待拆分汉字图像中汉字的汉字信息输入先验特征层,得到对应的待拆分汉字的汉字信息;将待拆分汉字的汉字信息和处理后待拆分汉字图像输入训练好的神经网络,训练好的神经网络一次性输出处理后输出待拆分汉字图像中的所有笔画。2.如权利要求1所述的汉字笔画拆分方法,其特征在于,所述笔画类别分为10个类别,具体如下所示:
3.权利要求2所述的汉字笔画拆分方法,其特征在于,字符分割到的笔画的10个大类表示为S=s1,s2…
,s
10
;则待拆分汉字图像及待拆分汉字图像的映射关系如下:S=N(P
stroke
)其中,N代表网络函数,P
stroke
为待拆分汉字图,S代表网络的输出,其维数为(10,w,h),是10张与原始输入图像大小相同的每个类别的笔画结果,s
10
表示第10类;w表示输出图像的宽,h表示输出图像的高。4.权利要求2所述的汉字笔画拆分方法,其特征在于,所述提取处理后汉字图像的图像特征的编码模块采用DeepLab V3+分割网络结构中的ASPP结构,编码模块完成对处理后汉字图像的特征提取,然后融合模块将先验特征层和提取的图像特征进行拼合,得到融合后的特征层,解码模块将对融合后的特征层解码,通过降维和上采样得到与输入图片大小相同的特征图。最后,特征图通过多标签输出层将按照笔画类别输出待拆分汉字图像中的所有笔画。5.如权...

【专利技术属性】
技术研发人员:谢斌宫欣玉聂海涛
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1