一种用于数字识别的神经网络权值初始化和训练方法技术

技术编号：41143645 阅读：26 留言：0更新日期：2024-04-30 18:12

本发明专利技术公开了一种用于数字识别的神经网络权值初始化和训练方法，包括：根据数字图像数据集划分训练集和测试集；计算信息熵增益；将计算得到的信息熵增益进行归一化处理；根据归一化后的信息熵增益初始化神经网络的权重；添加自定义学习率回调函数，在训练周期中，通过计算学习率的比例逐步增加学习率取值，在全部迭代次数终止后，选择并保存在模型准确率最高状态下的学习率取值与神经网络模型权重参数；将训练好的模型作为数字图像识别模型，通过数字图像识别模型实现数字图像识别。本发明专利技术将特征选择和信息增益技术与深度学习模型相结合，以解决数字图像识别问题并改进数字图像识别模型性能，提高了数字图像识别的准确率和识别速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数字图像识别领域，涉及深度学习技术，具体涉及一种用于数字识别的神经网络权值初始化和训练方法。

技术介绍

1、数字图像识别作为计算机视觉的一个核心领域，在安全监控、医疗诊断、自动驾驶等众多领域发挥着重要作用。随着技术的发展，有效地识别和处理图像数据变得至关重要，而这正是特征选择和信息增益以及深度学习这些现代机器学习技术的关键应用场景。

2、特征选择和信息增益以及深度学习是现代机器学习领域的关键技术。特征选择旨在从众多特征中挑选最相关和有用的，以提高模型性能和减少过拟合。信息增益作为特征选择的方法，通过比较特征的信息熵和特征与标签的组合后的信息熵来评估特征的贡献。

3、深度学习是一种模拟人类大脑神经元工作的方法，通过构建深层神经网络实现学习和预测任务。将特征选择与信息增益引入深度学习，意味着将传统特征选择的概念融合于深度学习的能力中，以更有效地学习和利用关键特征，提升模型性能和解释性。这种交叉应用为复杂数据任务带来了创新解决方案，强调了特征选择在优化深度学习模型中的重要作用。

4、尽管数字图像识别模型取得了巨大的进步，传统的数字图像识别模型如cnns、gans、rnns等，但仍存在一系列挑战和问题需要解决，如对于那些有着大量参数的复杂模型，训练和推理过程往往需要大量计算资源或模型可能在训练数据上表现良好，但在遇到新的、未见过的数据时性能下降即过拟合。

5、所以，需要一个新的技术方案来解决这个问题。

技术实现思路

1、专利技术

2、技术方案：为实现上述目的，本专利技术提供一种用于数字识别的神经网络权值初始化和训练方法，包括如下步骤：

3、s1：根据数字图像数据集划分训练集和测试集；

4、s2：将训练集导入到深度神经网络中进行训练，计算信息熵增益；

5、s3：将计算得到的信息熵增益进行归一化处理；

6、s4：根据归一化后的信息熵增益初始化神经网络的权重；

7、s5：添加自定义学习率回调函数，在训练周期中，通过计算学习率的比例逐步增加学习率取值，在全部迭代次数终止后，选择并保存在模型准确率最高状态下的学习率取值与神经网络模型权重参数；

8、s6：将步骤s5训练好的模型作为数字图像识别模型，通过数字图像识别模型实现数字图像识别。

9、进一步地，所述步骤s1中使用minist手写数字图像数据集来划分训练集和测试集。

10、进一步地，所述步骤s2中信息熵增益的计算方式为：特征与输出标签被视为两个随机变量，对标签数据进行独热编码预处理，调用scikit-learn工具库，并使用其内部的mutual_info_classif()函数来计算每个特征与输出之间的信息熵增益。

11、进一步地，所述信息熵增益sg的计算公式为：

12、

13、其中，x表示特征，y表示输出标签，p(x,y)表示它们同时发生的概率，p(x)和p(y)分别表示它们单独发生的概率，并将计算得到的信息熵增益存储在scores变量中。

14、进一步地，所述步骤s3中归一化处理的具体方式为：使用minmaxscaler工具对信息熵增益进行归一化处理，调整minmaxscaler中的feature_range参数，使得归一化后的信息熵增益值分布区间为(0.001,0.1)。

15、进一步地，所述步骤s4中初始化神经网络的权重方式为：在神经网络的第一个隐藏层的初始化过程中，将归一化后的信息熵增益数值作为跟输入特征相连接的第一个隐藏层神经元权重的初始化值。

16、进一步地，所述步骤s4中将归一化后的信息熵增益数值作为跟输入特征相连接的第一个隐藏层神经元权重的初始化值的具体表达如下：

17、输入层到隐藏层的权重ω11跟第一层输入信息t相关，又因本专利技术使用信息熵增益代替输入信息的随机初始化，故可将其初始化为信息熵增益sg，即

18、ω11～ω1n＝sg1

19、其中，n为隐藏层全部神经元个数，sg1为第一隐藏层全部神经元与输入层第一神经元连接的信息熵增益，t为输入层的输入信息，因本专利技术不仅局限于输入层第一神经元，故

20、ωin＝ti＝sgi

21、其中，i为输入层全部神经元个数。

22、进一步地，所述步骤s5的具体表达如下：

23、在获取每次迭代的学习率lr时使用

24、

25、即当前训练周期中的学习率lr与比例常数相乘，从而得到下一训练周期所使用的学习率lr，其中，start_lr表示起始学习率，end_lr表示结束学习率，n表示总的训练周期数。

26、进一步地，所述步骤s5中通过测试集对训练好的模型进行测试评估，将处理好的minist测试集分别输入原模型与训练好的模型中，并在同一坐标轴内，生成学习率、权重收敛速度和相关系数量化对比曲线，用以评估模型改进效果。

27、有益效果：本专利技术与现有技术相比，具备如下优点：

28、1、特征选择与信息增益的整合：通过使用信息熵增益来初始化神经网络的权重，该方法中信息熵增益较大的特征将在初始状态下获得较大的权重值，以便在模型的早期学习阶段更好地捕捉重要特征，可以在增加模型准确率与缩短学习时间的同时，减少冗余特征对模型造成的干扰。

29、2、创建学习率回调函数：通过递增学习率，可以在模型训练的早期阶段更容易找到一个合适的学习率范围，避免在开始时选择过大的学习率，导致模型不收敛或不稳定。

30、3、相对于传统的深度学习方法，本专利技术的创新点在于将特征选择与信息增益应用于深度学习中，结合了特征优化、权重初始化，学习率递增等方面的优点。可以有效改进数字识别模型的性能，提高模型的训练速度和识别准确率，为提升数字图像识别分类速度与准确率提升提供了新颖的解决方案。

本文档来自技高网...

【技术保护点】

1.一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S1中使用MINIST手写数字图像数据集来划分训练集和测试集。

3.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S2中信息熵增益的计算方式为：特征与输出标签被视为两个随机变量，对标签数据进行独热编码预处理，调用Scikit-Learn工具库，并使用其内部的mutual_info_classif()函数来计算每个特征与输出之间的信息熵增益。

4.根据权利要求3所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述信息熵增益的计算公式为：

5.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S3中归一化处理的具体方式为：使用MinMaxScaler工具对信息熵增益进行归一化处理，调整MinMaxScaler中的feature_range参数，使得归一化后的信息熵增益值分布区间为(0.001,0.1)。

6.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S4中初始化神经网络的权重方式为：在神经网络的第一个隐藏层的初始化过程中，将归一化后的信息熵增益数值作为跟输入特征相连接的第一个隐藏层神经元权重的初始化值。

7.根据权利要求6所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S4中将归一化后的信息熵增益数值作为跟输入特征相连接的第一个隐藏层神经元权重的初始化值的具体表达如下：

8.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S5的具体表达如下：

9.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤S5中通过测试集对训练好的模型进行测试评估，将处理好的MINIST测试集分别输入原模型与训练好的模型中，并在同一坐标轴内，生成学习率、权重收敛速度和相关系数量化对比曲线，用以评估模型改进效果。

...

【技术特征摘要】

1.一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤s1中使用minist手写数字图像数据集来划分训练集和测试集。

3.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤s2中信息熵增益的计算方式为：特征与输出标签被视为两个随机变量，对标签数据进行独热编码预处理，调用scikit-learn工具库，并使用其内部的mutual_info_classif()函数来计算每个特征与输出之间的信息熵增益。

4.根据权利要求3所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述信息熵增益的计算公式为：

5.根据权利要求1所述的一种用于数字识别的神经网络权值初始化和训练方法，其特征在于，所述步骤s3中归一化处理的具体方式为：使用minmaxscaler工具对信息熵增益进行归一化处理，调整minmaxscaler中的feature_range...

【专利技术属性】
技术研发人员：李忠国，唐洪川，高庙伟，石周，车赛，赵全明，张天一，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人