一种可减少汉字识别资源开销的卷积自编码器构建方法技术

技术编号：40309749 阅读：9 留言：0更新日期：2024-02-07 20:53

本发明专利技术提供一种可减少汉字识别资源开销的卷积自编码器构建方法，属于人工智能及计算机视觉技术领域，解决了传统方法资源开销上的局限性问题；包括：使用双线性插值法增强图像数据，使用K均值聚类算法将图像数据中的关键特征进行聚类提取；建立层级数据库，单独存储具有不同关键特征的图像数据；结合卷积自编码器的输入与输出特征，构建出自定义损失函数和交叉熵损失函数；结合层级数据库中不同关键特征的图像数据，通过搭建卷积层、池化层和全连接层的方式，构建出卷积自编码器，作为汉字识别模型的核心结构；本发明专利技术相较于传统模型，具有更加精简的结构、更好的识别精度与识别速度，顺利实现了较少资源对中文汉字字符的模型训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能及计算机视觉，应用于汉字识别过程中，具体为一种可减少汉字识别资源开销的卷积自编码器构建方法。

技术介绍

1、图像文字识别是从电子化数据中获取字符内容后，进行处理并得到条理化信息的过程。电子化数据是指计算机和通信等领域在使用中形成的以数字化形式存储、处理和传输的客观资料。

2、随着人工智能技术的发展，图像文字识别虽然已被认为是一个已经解决的问题，但是对于字符训练过程中的资源开销问题，仍具有一定难度。由于自然图像中存在不完美图像，涉及光线、分辨率和扭曲遮挡等干扰因素，影响了汉字识别过程；为了解决这一问题，通过引入机器学习和深度学习等各种方法，以提高模型识别的精确度，但又增加了模型训练过程中的资源开销。目前，机器学习方法可减少文字标签，并通过提取特征进行初步分析，但仍有局限。

3、因此，现有技术在中文字符识别过程中，存在的问题可总结如下：

4、1、组合模型相较于单一模型，其识别精确度表现要好，但组合模型的结构融合问题难以处理，易导致模型间数据传递不正常、数据结构不一致等问题；

5、2、对于标签数量较少的文字，很多识别模型表现良好，但对于标签较多的文字图片，模型的构建复杂度、学习及训练复杂度都相对较高；

6、3、如今各类文字识别模型互不相同，依据某一类文字识别模型所搭建的神经网络学习模型，在面对其他类文字识别任务时，表现较差，这种迁移学习能力对现有模型来说具有很高难度。

7、可见，随着人工智能及计算机视觉技术的不断发展，应用于各类领域的文字识别

技术实现思路

1、针对
技术介绍
中的现状，本专利技术的目的是：挖掘出现有技术未重视的，在图像文字识别过程中存在的资源开销问题的解决方法。对此，本专利技术提出了汉字识别模型中的卷积自编码器构建方法，该方法以较少资源实现了对中文字符的模型训练，但同时不遗失模型的识别精度与速度，能更好的完成中文数据集的学习与训练。

2、本专利技术采用了以下技术方案来实现目的：

3、一种可减少汉字识别资源开销的卷积自编码器构建方法，所述方法包括如下步骤：

4、s1、获取数据集并预处理，使用双线性插值法，对数据集中的图像数据进行增强；

5、s2、提取增强后图像数据的关键特征，使用k均值聚类算法，将关键特征相符的所有图像数据聚类，搭建出层级数据库；层级数据库中，单独构建数据表，存储具有不同关键特征的图像数据；

6、s3、依据拟构建汉字识别模型的复杂性与融合性，结合卷积自编码器的输入与输出特征，构建出自定义损失函数和交叉熵损失函数，同时确定出卷积自编码器的综合评价指标；

7、s4、依据卷积自编码器的结构标准，结合层级数据库中不同关键特征的图像数据，通过搭建卷积层、池化层和全连接层的方式，构建出卷积自编码器，作为汉字识别模型的核心结构；

8、s5、将汉字识别模型与同类模型进行对比测试，评估汉字识别模型在识别任务中的准确度与稳定性。

9、进一步的，步骤s1中，获取的数据集为公开的数据集hwdb；对hwdb中的图像数据进行归一化与标准化的数据预处理过程，采用如下的图像归一化公式：

10、

11、式中，c′为归一化后的结果；c为原始数据；min、max函数分别为求原始数据的最大与最小值；

12、以双线性插值法对预处理后的hwdb图像数据进行增强，公式如下：

13、

14、式中，q11、q21、q12、q22分别为以图像为中心构建矩阵的4个顶点位置；x、y代表插值对象的x轴和y轴坐标。

15、进一步的，步骤s2中，通过pca和umap方式，对图像数据进行维度压缩，以图像数据中文字图像的偏旁为关键特征，应用k均值聚类算法进行聚类，得到多个簇；统计每个簇的标签，使标签符合自由度为n的卡方分布，即与的伽马分布，对应的密度如下：

16、

17、式中，v代表1个标签样本被统计1次的情况的发生概率；同时，求解伽马分布函数的t阶矩生成函数为：m(t)＝(1-2t)-n/2；由此实现关键特征的提取过程。随后，层级数据库的搭建过程则如下：首先构建初始数据库，以json文件形式存储仅经过预处理及图像增强后的图像数据，其中包括图片地址与图片标签；然后构建分别存储图像数据普通特征和关键特征的数据表，先进行聚类的普通特征提取，将普通特征聚类过程的每个结果分别存储；最后进行以偏旁为关键特征的聚类分析提取，将每个类别结果单独存储于1个对应的数据表中，该数据表在存储类别结果时，剔除预设阈值以下的标签。

18、作为本专利技术的优选，所有的数据都存储在mysql中，建立1个包含所有数据的总数据库，1个通过k均值聚类后的层级数据库；层级数据库中结构包括：1级数据库为所有数据的初次普通聚类，一般是存储图像经过特征提取后的关键特征，主要是对图像的降维和提取，保留其二位数的关键；2级数据库为经过k均值聚类，分为十个簇后的关键特征；hwdb数据集中原数据集总计50万张图片数据，经过初次聚类后得到的某一类标签，大约可有5万张初次提取的特征数据；3级数据库以汉字的偏旁特征为关键，进行下一部聚类，引入肘部方法确定聚类簇头数，经过聚类后的数据分布存储至多个对应的数据表中。

19、进一步的，步骤s3中，自定义损失函数如下式：

20、f(xi,xi-1)＝σ(vxtanh(wpxi-1+wxxi+bx))

21、式中，σ为s型函数；tanh为激活函数；wp、wx、vx均为可训练参数；bx为模型训练过程中的偏置项，用于调整丢弃的局部特征的比例，提高神经网络模型的灵活性。

22、此公式的含义为：在第xi-1到xi的过程中，对激活函数增加1个s型函数σ，该函数的作用在于将非线性特征引入至网络中，如果没有激活函数的存在，神经网络的每层都相当于矩阵相乘，多层的神经网络中只会表现出线性变换，和单层感知机无异。因此激活函数对于神经网络在学习、理解非常复杂和非线性函数的过程来说十分重要。

23、交叉熵损失函数如下式：

24、

25、式中，p(x)为随机变量x的真实发生概率；q(x)为预测分布；k为总类别数；此公式的含义为：将神经网络或模型的输出q(xi)，把交叉熵看做真实标签和预测标签结构的差异，而神经网络的目的是通过训练，使预测输出q(xi)不断地逼近p(xi)，也符合常规神经网络训练和实现的目标。

26、对于1个batch，单标签分类任务的交叉熵函数采用如下计算式：

27、

28、式中，batch_size为分批次训练的每批训练数据大小；该公式中，将1个batch_size分为j个信息熵的求取，计算其平均损失函数，得到对本文档来自技高网...

【技术保护点】

1.一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于，还包括步骤：

3.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤S1中，获取的数据集为公开的数据集HWDB；对HWDB中的图像数据进行归一化与标准化的数据预处理过程，采用如下的图像归一化公式：

4.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤S2中，通过PCA和UMAP方式，对图像数据进行维度压缩，以图像数据中文字图像的偏旁为关键特征，应用K均值聚类算法进行聚类，得到多个簇；统计每个簇的标签，使标签符合自由度为n的卡方分布，即与的伽马分布，对应的密度如下：

5.根据权利要求4所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，层级数据库的搭建过程为：首先构建初始数据库，以json文件形式存储仅经过预处理及图像增强后的图像数据，其中包括图片地址与图片标签；然后构建分别存储图像数

6.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：

7.根据权利要求6所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：对于综合评价指标，包括准确率、召回率和其他率；通过各指标的权重均值，衡量最终模型的准确度；指标计算如下式：

8.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤S4中，构建的卷积自编码器结构包括编码器和解码器；编码器结构中，数据依次经过：3个卷积块，每个包括64个(1,1)大小的卷积核所组成的卷积层；64个(3,3)大小的卷积核所组成的卷积层；256个(1,1)大小的卷积核所组成的卷积层；1个用于图像下采样的池化层；4个卷积块，每个包括128个(1,1)大小的卷积核所组成的卷积层；128个(3,3)大小的卷积核所组成的卷积层；512个(1,1)大小的卷积核所组成的卷积层；最后1个用于图像下采样的池化层；经过上述结构后，数据通过编码器得到1个关键特征Z；

9.根据权利要求8所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：针对所构建的卷积自编码器结构，使用不同关键特征的图像数据完成汉字识别模型的学习训练；在模型学习训练过程中，采用学习率梯度下降法、Dropout层与模型真实准确率判定的早停法，降低模型出现过拟合的风险；同时，模型的损失函数采用构建完成的自定义损失函数和交叉熵损失函数。

10.根据权利要求2所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤S5中，同类模型包括AlexNet模型和GoogleNet模型；依据确定的综合评价指标，对汉字识别模型进行多轮评价；通过对每轮评价的准确性指标赋予权重值，计算汉字识别模型与同类模型间的平均准确度差值，作为最终的模型准确度，判断模型训练是否达到实际应用标准。

...

【技术特征摘要】

1.一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于，还包括步骤：

3.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤s1中，获取的数据集为公开的数据集hwdb；对hwdb中的图像数据进行归一化与标准化的数据预处理过程，采用如下的图像归一化公式：

4.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：步骤s2中，通过pca和umap方式，对图像数据进行维度压缩，以图像数据中文字图像的偏旁为关键特征，应用k均值聚类算法进行聚类，得到多个簇；统计每个簇的标签，使标签符合自由度为n的卡方分布，即与的伽马分布，对应的密度如下：

5.根据权利要求4所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，层级数据库的搭建过程为：首先构建初始数据库，以json文件形式存储仅经过预处理及图像增强后的图像数据，其中包括图片地址与图片标签；然后构建分别存储图像数据普通特征和关键特征的数据表，先进行聚类的普通特征提取，将普通特征聚类过程的每个结果分别存储；最后进行以偏旁为关键特征的聚类分析提取，将每个类别结果单独存储于1个对应的数据表中，该数据表在存储类别结果时，剔除预设阈值以下的标签。

6.根据权利要求1所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：

7.根据权利要求6所述的一种可减少汉字识别资源开销的卷积自编码器构建方法，其特征在于：对于综合...

【专利技术属性】
技术研发人员：何小利，张博，龙源，宋钰，
申请(专利权)人：四川轻化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人