当前位置: 首页 > 专利查询>大连大学专利>正文

一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法技术

技术编号:33963794 阅读:16 留言:0更新日期:2022-06-30 01:03
本发明专利技术公开了一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,包括:步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理;步骤2:对毛笔字体图像数据的亮度、对比度饱和度进行调整;步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式;步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练;本方法取得了良好的识别精度,极大的提高了书法字体识别的速度和便捷性,为智能设备的开发应用提供了技术保障。为智能设备的开发应用提供了技术保障。为智能设备的开发应用提供了技术保障。

【技术实现步骤摘要】
一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法


[0001]本专利技术涉及人工智能
,具体涉及一种融合视觉(Vision Transformer,ViT)与卷积神经网络(Convolutional Neural Networks,CNN)的毛笔字体类型快速识别方法。

技术介绍

[0002]毛笔书法是我国汉字的一种传统艺术表现形式。在书法界公认的有五体,分别是篆书、隶书、楷书、草书和行书。每种字体都有其独特的书写风格。篆书是象形表意的字体,特点是画笔灵动、栩栩如生。隶书点画分明,横长竖断,讲究“蚕头雁尾”、“一波三折”。楷书形体方正,笔画平直,讲究“丰腴雄浑”,“结体遒劲”。草书与楷书规矩的笔法不同,它有着“飘若浮云”、“矫若惊龙”的特点。而行书既有楷书的规整,又有草书的放纵流动,是结合了艺术与实用的一种字体。这五类字体的风格各有不同,但又存在相似之处。
[0003]目前,书法字体的识别主要依靠专业人员的经验判断,但仅凭人工的方法不仅需要投入大量的时间和精力,而且不同人员之间差异化严重。字体图像中包含着很多字形信息,肉眼识别很难抓住这些微小的特征。初学者由于不了解字体间的区别,常常出现书写不规范的问题。普通深度学习方法虽然能获取到字体图像的更多特征信息,但却忽略了字体偏旁与笔画顺序的细微特征,这些信息对于毛笔字体类型的判断具有重要影响。

技术实现思路

[0004]本专利技术的目的在于,提出一种基于细粒度形态信息的毛笔字体类型快速识别方法,其将毛笔字体的分类问题转化为人工智能领域的图像分类问题,进而得到字形中丰富的特征信息。
[0005]为实现上述目的,本申请提出的一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,包括:
[0006]步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储;
[0007]步骤2:对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充;
[0008]步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集;
[0009]步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;
[0010]步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;
[0011]步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型;
[0012]步骤7:加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别。
[0013]进一步地,步骤1中对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储,具体包括:
[0014]步骤1.1:对来自书法字体库中的毛笔字体图像数据进行筛选,删除图像质量低的数据;
[0015]步骤1.2:将不同类别毛笔字体图像数据收集整理,分别存储在篆书、隶书、楷书、草书和行书对应的文件夹下;
[0016]进一步地,步骤2中对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充,具体包括:
[0017]步骤2.1:采用人工方式对分类存储的毛笔字体图像数据进行清洗操作,对照数据集中的标注实例,标注错误的图像;
[0018]步骤2.2:对于数据集中的毛笔字体图像,按照50%的概率进行翻转,在图像翻转过程中,分别按照50%的概率进行水平翻转和垂直翻转;对于每一张毛笔字体图像,按照100%的概率进行亮度、对比度和饱和度的调整,在调整过程中,分别按照33.3%的概率进行亮度与对比度和饱的随机变换;
[0019]步骤2.3:在数据集中按照30%的概率添加噪声,在添加过程中,分别按照33.3%的概率添加高斯噪声、胡椒噪声和盐噪声;然后保留处理后的毛笔字体图像和原始毛笔字体图像,实现了数据集的增强和扩充。
[0020]进一步地,步骤3中将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集,具体包括:
[0021]步骤3.1:调用Python库的torchvision函数库,转换毛笔字体图像的分辨率,并将其统一为64
×
64;
[0022]步骤3.2:随机选取部分毛笔字体图像数据,按照8:2的比例,构造训练集与验证集;
[0023]步骤3.3:将统一分辨率后的毛笔字体图像数据转换为Tensor形式。
[0024]进一步地,步骤4中调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息,具体包括:
[0025]步骤4.1:将步骤3得到的毛笔字体图像Tensor进行卷积操作;考虑到不同类型的字体之间外形差异较为细微,所以使用不同大小卷积核的卷积神经网络强化模型提取特征的能力;
[0026]步骤4.2:采用批归一化(BatchNorm)方式对输入层和隐藏层标准化,利用视觉激活函数(FReLU)加速收敛,传入最大池化层(MaxPool)进行池化操作,得到字体的局部特征信息。
[0027]更进一步地,步骤5中调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息,具体包括:
[0028]步骤5.1:将步骤3得到的毛笔字体图像Tensor进行分块,展平成序列,输入ViT模型的编码器Encoder部分,其采用了堆叠的6个Encoder模块结构;
[0029]步骤5.2:通过拆分毛笔字体图像,重新进行位置编码,使用可学习的一维位置嵌
入作为位置编码的输入;
[0030]步骤5.3:将位置编码后的输出划分为8个注意力模块,得到每个注意力模块的值,并进行拼接;
[0031]所述注意力模块使用式(1)进行拼接:
[0032]MultiHeadAttention(Q,K,V)=Concat(head1,...,head8)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0033]head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0034]其中,head
i
表示注意力模块;
[0035]所述注意力模块的值获取公式如下:
[0036][0037]其中d
k
表示输入维度,Q、K、V分别表示Query,Key和Value矩阵,T表示矩阵的转置,如果Q*K
T
的值过大,softmax的偏导数将趋近于0,为了解决这种影响,所以乘以缩放因子
[0038]步骤5.4:将多个注意力模块的输出与位置编码的输出做残差连接,这个结构的设计解决了全连接层过深导致的神经网络退化问题;
[0039]步骤5.5:做残差连接后的毛笔字体图像送入前馈神经网络,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,包括:步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储;步骤2:对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充;步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集;步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型;步骤7:加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别。2.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤1中对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储,具体包括:步骤1.1:对来自书法字体库中的毛笔字体图像数据进行筛选,删除图像质量低的数据;步骤1.2:将不同类别毛笔字体图像数据收集整理,分别存储在篆书、隶书、楷书、草书和行书对应的文件夹下。3.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤2中对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充,具体包括:步骤2.1:采用人工方式对分类存储的毛笔字体图像数据进行清洗操作,对照数据集中的标注实例,标注错误的图像;步骤2.2:对于数据集中的毛笔字体图像,按照50%的概率进行翻转,在图像翻转过程中,分别按照50%的概率进行水平翻转和垂直翻转;对于每一张毛笔字体图像,按照100%的概率进行亮度、对比度和饱和度的调整,在调整过程中,分别按照33.3%的概率进行亮度与对比度和饱的随机变换;步骤2.3:在数据集中按照30%的概率添加噪声,在添加过程中,分别按照33.3%的概率添加高斯噪声、胡椒噪声和盐噪声;然后保留处理后的毛笔字体图像和原始毛笔字体图像,实现了数据集的增强和扩充。4.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤3中将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集,具体包括:步骤3.1:调用Python库的torchvision函数库,转换毛笔字体图像的分辨率,并将其统一为64
×
64;步骤3.2:随机选取部分毛笔字体图像数据,按照8:2的比例,构造训练集与验证集;步骤3.3:将统一分辨率后的毛笔字体图像数据转换为Tensor形式。5.根据权利要求4所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其
特征在于,步骤4中调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息,具体包括:步骤4.1:将步骤3得到的毛笔字体图像Tensor进行卷积操作,即使用不同大小卷积核的卷积神经网络进行特征提取;步骤4.2:采用批归一化方式对输入层和隐藏层标准化,利用视觉激活函数加速收敛,传入最大池化层进行池化操作,得到字体的局部特征信息。6.根据权利要求4所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤5中调整后...

【专利技术属性】
技术研发人员:刘卓亚车超
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1