一种基于卷积神经网络的古字体分类方法技术

技术编号:21200889 阅读:16 留言:0更新日期:2019-05-25 01:32
本发明专利技术公开了一种基于卷积神经网络的古字体分类方法。本发明专利技术首先利用爬虫技术爬取古字体类别图像数据集,通过数据扩充使训练集样本趋于平衡,对已经平衡的训练集样本进行灰度化处理并将图像resize到目标图像大小,然后对样本集进行直方图均衡化处理,通过N8连通降噪算法去除图像中孤立的噪点,最后基于模糊集理论并利用香农熵函数对图像进行二值化处理,较好的保留了图像的细节特征;基于分类任务的目标函数将中心损失函数与传统的交叉熵损失函数配合使用,增大类间距离并减小类内距离,在一定程度上提高了特征的分辨能力,通过预先定义好的网络模型对预处理后的图像进行训练,利用混淆矩阵对分类结果准确率进行评估。本发明专利技术对退化的古字体图像预处理效果显著,通过优化参数设置,利用适当的训练技巧,训练卷积神经网络模型,实现了更精确的古字体分类效果。

A Classification Method of Ancient Fonts Based on Convolutional Neural Network

The invention discloses an ancient font classification method based on convolution neural network. Firstly, the crawler technology is used to crawl the image data set of ancient font categories, and the training set samples are balanced by data expansion. Then, the balanced training set samples are grayed and resized to the size of the target image. Then, the sample set is histogram equalized, and the isolated noise points in the image are removed by N8 connected denoising algorithm. Finally, based on blurring. Set theory and Shannon Entropy Function are used to binarize the image to preserve the details of the image. Based on the objective function of classification task, the central loss function is combined with the traditional cross-entropy loss function to increase the distance between classes and reduce the distance within classes. To a certain extent, the resolution ability of the feature is improved. The pre-defined network model is used to preprocess the image. The processed images are trained and the accuracy of classification results is evaluated by using confusion matrix. The method has remarkable effect on image preprocessing of degraded ancient fonts. By optimizing parameter setting and using appropriate training techniques, the convolution neural network model is trained, and a more accurate classification effect of ancient Fonts is achieved.

【技术实现步骤摘要】
一种基于卷积神经网络的古字体分类方法
本专利技术涉及中国传统汉字图像处理领域,特别是一种基于卷积神经网络的古字体书法分类方法。
技术介绍
汉字,作为中国传统的文字,至今已有数千年的历史,同时,汉字也是中国传统艺术和文化的重要组成部分。然而,时间已经导致旧书法作品风化和损坏,因此有必要利用先进的技术来保护这些作品。我们将提供一种针对中国古字体书法作品的预处理(去噪)算法,在此基础上利用卷积神经网络对数据集进行分类,以达到更好的分类正确率。大多数古字体(中国传统书法)都是用中国传统毛笔书写,这些传统毛笔中的笔迹比硬笔书法要厚重得多,因此字符里存储了更多的形状信息;然而风化的作品存在许多噪点,很大程度上影响分类效果。近年来,大批量的古字体书法已经被数字化以用于研究和普遍的艺术实践。因此,对古字体识别和分类的需求正不断增加。目前,已有许多相关解决方案,这些解决方案大多是基于某些特征提取和K邻近值技术,并且在前期的图像预处理后,处理效果不太显著,通常用于字体的识别和单一的特征提取。另一方面,卷积神经网络已被广泛用于手写字符的识别,但是缺乏在中国古字体方向的研究。基于这种情况,我们希望探索卷积神经网络在古字体风格样式识别上的应用,实现更系统分类的目标,为后续做精确的识别以及古字体研究管理打下坚实的基础。针对上述问题及现实意义,本专利技术将提升在数据预处理方面的能力,通过优化参数设置,利用适当的训练技巧,训练卷积神经网络模型,以实现更好的分类性能。
技术实现思路
本专利技术的目的在于提供一种基于卷积神经网络的古字体分类方法。本专利技术通过将基于深度学习的卷积神经网络应用于中国传统书法字体分类中,来解决字体风格分类问题。首先,结合直方图均衡化以及基于模糊集理论的一种图像二值化算法对数据集图像进行预处理;然后,在经过预处理过后的样本集上训练卷积神经网络对其进行分类,实验结果表明,该方法能够对退化汉字进行更精确的分类识别。一种基于卷积神经网络的古字体分类方法,分类问题就是搭建的模型在通过监督学习后建立起的一个离散映射关系,算法实现模块包括数据集获取、数据扩充、图像预处理模块、卷积神经网络模型模块、目标函数模块、优化器模块、网络训练模块、网络测试模块。实现本专利技术目的的技术解决方案包括如下步骤:步骤1.数据集获取,利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,获取其中的五种标准古字体类别图像,利用这五种标准古字体类别图像组成本专利技术实验所需的古字体图像数据集。步骤2.扩充古字体图像数据集,在步骤1所获取的古字体图像数据集上扩充数据样本数量,由于通过爬虫爬取的不同风格古字体的样本数量各不相同,为便于模型训练,针对数据样本较少的类别进行样本扩充,此处使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,一方面可以有效的避免过拟合,另一方面又会在一定程度上带来模型性能的提升。步骤3.对扩充后的完整古字体图像数据集进行预处理操作,包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法。将原始古字体图像处理成正方形图像,原因是由于卷积神经网络模型的输入一般是方形图像。首先,将原始古字体图像进行gray灰度处理;其次,通过reshape获取灰度处理后输入图像的大小,大小包括长、宽、通道数,以长宽值较大的一边为基准等比例缩放,通过resize()函数等比例缩放到目标值大小;然后对长宽值较小的一边进行边缘填充,根据图像边界的像素值,向外扩充图片,每个方向扩充的像素点为与目标大小差值的一半,得到图像的大小为既定目标大小的方形图像;再然后对方形图像进行直方图均衡化处理,将方形图像中不均匀的灰度级分布,通过变换占据整个灰度域,使得细节更加丰富;经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理,计算图像中每个像素点的8邻域去除孤立的噪点。最后通过模糊集理论对图像进行二值化处理,首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X,也就是说定义了一个从图像X映射到[0,1]区间的模糊子集,然后通过动态调整阈值的方式建立完整的模糊矩阵,最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E,此时对应模糊矩阵的阈值就是图像二值化的分割阈值。步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入。首先,在每个模型中,使用3*3的卷积核滑动窗口,步长为1,Padding为1,以保留输入高度和宽度,并且最大池化层的滑动窗口为2*2,下采样步长为2;其次,在每个卷积层之后添加BatchNorm层,使得网络训练过程中每一层神经网络的输入保持相同的分布,使得训练深层网络模型更加容易和稳定;之后在每个BatchNorm层之后使用非线性ReLU激活函数,达到快速的收敛效果;然后接入3个全连接层,使用随机失活(dropout)来配备全连接层的卷积神经网络所使用的网络正则化方法,在一定程度上降低了神经元间依赖,避免了网络过拟合的发生,对于提升网络泛化性效果显著;最后得到全连接层输出维度为5的数据传递到Softmax函数中,全连接层是将网络特征映射到样本的标记空间做出相应的预测。步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差。基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用,中心损失函数在考虑类间距离的同时还将一些注意力放在减小类内差异上,类内差异减小的同时也使得特征具备更强的判别能力,即类别区分性越来越大;在分类性能上,中心损失函数结合交叉熵损失函数要优于只使用交叉熵损失函数作为目标函数的网络模型,从增大类间距离、减小类内距离的角度上不仅要求分类准确,而且还有助于提高特征的分辨能力。步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解,将动量因子μ以动态设定方式进行调整,μ初始值设为0.5,之后随着训练批次数的增长逐渐变为0.9,可以有效的抑制振荡,还可在网络训练中后期趋于收敛、网络参数在局部最小值附近来回振荡时帮助其跳出局部限制,找到更优的网络参数。步骤7.所述网络训练模块,在训练卷积神经网络时,首先选取步骤3数据集中80%的数据样本作为训练样本集,将训练数据随机打乱,确保模型在不同训练批次“看到”的数据样本是不同的,这样的处理方式不仅会提高模型收敛速率,同时也会提升模型在测试数据集上的预测结果。定义步骤5目标函数和步骤6优化器,调整网络参数并统计指标。将步骤4的网络模型作为训练模型对数据样本开始进行训练,训练结束之后保存模型,以方便后期快速的模型加载。步骤8.所述网络测试模块,使用混淆矩阵进行评估,此矩阵是一种对分类算法准确率进行量化的工具,用来呈现分类性能的可视化效果,通过将模型预测的数据与测试数据进行对比,使用准确率指标对模型的本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的古字体分类方法,其特征在于包括如下步骤:步骤1.数据集获取,利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,获取其中的五种标准古字体类别图像,利用这五类标准古字体类别图像来组成本专利技术实验所需的古字体图像数据集;步骤2.数据扩充,在步骤1所获取的古字体图像数据集上扩充数据样本数量,针对数据样本较少的类别进行样本扩充,扩充方式包括使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,最终每类古字体样本图像在数量上统一,获得完整数据集;步骤3.对扩充后的完整数据集的图像进行预处理,将图像处理成正方形图像;所述的预处理包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法;步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入;步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差;基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用;步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为...

【技术特征摘要】
1.一种基于卷积神经网络的古字体分类方法,其特征在于包括如下步骤:步骤1.数据集获取,利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,获取其中的五种标准古字体类别图像,利用这五类标准古字体类别图像来组成本发明实验所需的古字体图像数据集;步骤2.数据扩充,在步骤1所获取的古字体图像数据集上扩充数据样本数量,针对数据样本较少的类别进行样本扩充,扩充方式包括使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,最终每类古字体样本图像在数量上统一,获得完整数据集;步骤3.对扩充后的完整数据集的图像进行预处理,将图像处理成正方形图像;所述的预处理包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法;步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入;步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差;基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用;步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解,将动量因子μ以动态设定方式进行调整,μ初始值设为0.5,之后随着训练批次数的增长逐渐变为0.9,从而有效抑制振荡,找到更优的网络参数;步骤7.网络训练,在训练卷积神经网络时,首先选取步骤3数据集中80%的数据样本作为训练样本集,将训练数据随机打乱,确保模型在不同训练批次“看到”的数据样本是不同的;定义步骤5目标函数和步骤6优化器,调整网络参数并统计指标;将步骤4的网络模型作为训练模型对数据样本开始进行训练,训练结束之后保存模型,以方便后期快速的模型加载;步骤8.网络测试,使用混淆矩阵进行评估,此矩阵是一种对分类算法准确率进行量化的工具,用来呈现分类性能的可视化效果,通过将模型预测的数据与测试数据进行对比,使用准确率指标对模型的分类效果进行度量,最终得出每类古字体被正确分类的概率,以及总的准确率。2.根据权利要求1所述的基于卷积神经网络的古字体分类方法,其特征在于步骤3所述的对扩充后的完整数据集的图像进行预处理,具体实现如下:首先,将原始古字体图像进行gray灰度处理;其次,通过reshape获取图像的大小,包括长、宽、通道数;以长宽值较大的一边为基准等比例缩放,通过resize()函数等比例缩放到目标值大小;然后对长宽值较小的一边进行边缘填充,根据图像边界的像素值,向外扩充图像大小,每个方向扩充的像素点为与目标大小差值的一半,得到图像的大小为既定目标大小的方形图像;再然后,对方形图像进行直方图均衡化处理,将方形图像中不均匀的灰度级分布,通...

【专利技术属性】
技术研发人员:吴以凡赵月张桦戴国骏史建凯
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1