当前位置: 首页 > 专利查询>青岛大学专利>正文

一种基于幂律分布的权重初始化方法技术

技术编号:29676335 阅读:54 留言:0更新日期:2021-08-13 21:58
本发明专利技术属于人工智能领域,涉及一种优化、提升网络训练过程的权重初始化方法,先建立cifar10数据集的AlexNet和ResNet32网络模型,并计算卷积层权重数量;再生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据;并在深度学习模型中应用本发明专利技术提出的初始化数据进行权重初始化,再将提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比,本发明专利技术与现有技术相比,在权重初始化领域,突破固有的随机分布、均匀分布以及正态分布的数学模型,引入使用幂律分布初始化的概念,并在实验中得到有效的验证。其总体构思巧妙,具有普适性和高效性。可以适用于各种不同的网络模型的结构,同时可以节省模型训练的时间,提升最终的识别精确度。

【技术实现步骤摘要】
一种基于幂律分布的权重初始化方法
:本专利技术属于人工智能领域,更进一步涉及到的是该领域中的深度学习网络模型,具体是一种优化、提升网络训练过程的权重初始化方法,可应用于所有的网络模型,并且产生了有益效果。
技术介绍
:现下,深度学习是最热的人工智能和机器学习的子领域之一。深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。随着深度学习的进一步发展,研究者们为了进一步提高网络模型的训练速度和模型精确度,尝试从多个角度提出改进方案,主要是:优化网络结构,迁移学习以及优秀的权重初始化方法。深度学习的本质其实是训练、优化权重的值,使其达到一个最优解的状态。这其中,需要更新权重的层包括卷积层、BN层和FC层等。在寻找最优解的过程中,权重的初始化就是得到最优解的重要前提。如果权重初始化不合适,则可能会导致模型反向传播失效,陷入局部最优解,导致模型预测效果不理想,甚至使损失函数震荡,模型无法收敛。也就是说,使用不同的权重初始化方法,直接影响到了模型的训练速度和最终精确度。因此,一个优秀的权重初始化方法是深度神经网络领域成功的基石。现阶段,搭建一个优秀的网络模型通常需要进行大量的实验,并且,非常重要的网络模型参数的设置也往往依赖研究者的经验,并没有很好的理论指导。一个优秀的权重初始化方法,应该具有普适性和高效性。不但可以适用于各种不同的网络模型的结构可以节省模型训练的时间,甚至是可以提升最终的识别精确度。在该领域中有很多权重初始化的方法,常见的随机初始化或固定值初始化。除此之外,还有高斯(正态)分布初始化,均匀分布初始化,截断高斯分布初始化以及主成分洗牌初始化等,该初始化方法与高斯分布初始化相似,但分布形式为截尾分布。目前较为成熟的权值初始化方法:Xavier初始化方法和He初始化方法。Xavier初始化为了增加网络各层之间信息传播的流畅性,遵循了(正向传播)各层激活值的方差和(反向传播)各层状态值的梯度的方差在传播中保持一致的原则,通过均匀分布来进行权重初始化调整。但是,Xavier初始化所使用的激活函数是线性的且激活值关于0对称,不适用于Sigmoid函数和ReLU函数。He初始化在Xavier初始化的基础之上,稍加改变,遵循(正向传播)各层状态值的方差和(反向传播)各层激活值的梯度的方差在传播中保持一致的原则,在与ReLU激活函数的共同作用下,可以达到非常好的收敛效果。然而使用这两种权重初始化方法,网络模型依然需要训练多次,耗时长,并且需要大量训练数据。针对深度学习领域中关于权重初始化方法的现下情况,本专利技术拟设计提供一种基于幂律分布的权重初始化方法,本方法通过实验验证发现:本专利技术中的幂律分布的数据能够有效提高网络模型的收敛速度,节省训练时间,并且有助于提升网络模型的最终精确度。
技术实现思路
:本专利技术的目的主要是针对现有技术中的不足和缺陷,提出了一种基于幂律分布的权重初始化方法,该方法有助于提升网络模型训练过程的初始化权重,能够有效优化深度学习模型训练不收敛和训练时间长的问题。为实现上述目的,本专利技术涉及的基于幂律分布的权重初始化方法通过如下设计方案实现:本专利技术涉及的基于幂律分布的权重初始化方法的具体操作步骤如下:S1、建立cifar10数据集的AlexNet和ResNet32(深度残差网络)网络模型,并计算卷积层权重数量:卷积是一种有效提取图片特征的方法,一般用一个正方形卷积核,遍历图片上的每一个像素点,图片与卷积核重合区域内相对应的每一个像素值,乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得到输出图片中的一个像素值;图片分灰度图和彩色图,卷积核可以是单个也可以是多个,而卷积核中的各个参数就是卷积层的权重,卷积核参数个数就是卷积层的权重个数,依据卷积核的维度和个数,便可以计算出该卷积层所需权重的数量;S2、生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据:幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数的分布,以幂律函数为概率密度函数,根据卷积层中需要初始化的参数个数,依次生成每一层对应的基于幂律分布的初始化数据;S3、在深度学习模型中应用本专利技术提出的初始化数据进行权重初始化:在网络初始化时,使用步骤S1中制作的数据来初始化网络模型,按层初始化完成后,放入数据集进行训练,保存每一轮次在验证集中的正确率;S4、将步骤S2中提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比:将使用步骤S2中提出的基于幂律分布的权重初始化方法与He初始化方法的训练情况进行对比,对比每一轮次训练结束后的模型正确率,结果可显示,在第一轮次本专利技术发挥优势,正确率有显著的提升,并且最终的精确度也略高于He初始化方法精确度;在AlexNet和ResNet32(深度残差网络)两个网络上的进行实验,通过对比本专利技术与He初始化方法的每一轮精确度,发现使用本专利技术进行权重初始化的网络模型取得以下成果:1)本专利技术在AlexNet网络上比He初始化方法提升了5%的模型最终准确度;2)本专利技术在ResNet32网络上比He初始化方法提升了60%的首轮次精确度,以及5%的最终精确度。本专利技术与现有技术相比,取得的有益效果:在权重初始化领域,突破固有的随机分布、均匀分布以及正态分布的数学模型,引入使用幂律分布初始化的概念,并在实验中得到有效的验证。其总体构思巧妙,同时具有普适性和高效性。不但可以适用于各种不同的网络模型的结构,同时可以节省模型训练的时间,甚至是可以提升最终的识别精确度。且应用环境友好,市场前景广阔。附图说明:图1为本专利技术涉及的最初发现的规律示意图。图2为本专利技术涉及的基于幂律分布的数据分布图。图3为本专利技术涉及的数据幂律分布特性检验图1(幂律分布拟合)。图4为本专利技术涉及的数据幂律分布特性检验图2(双对数检验)。图5为本专利技术所提供的验证优化效果示意图1(AlexNet网络)。图6为本专利技术所提供的验证优化效果示意图2(ResNet32网络)。具体实施方式:下面将结合本专利技术示例中的附图,对本专利技术示例中的技术方案进行清楚、完整地描述。当然,所描述的示例仅仅是本专利技术的一部分示例,而不是全部的情况展示。基于本专利技术中的示例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他示例,都属于本专利技术保护的范围。实施例1:本实施例的目的是提供一种高效并且稳定的权重初始化方法,更快速的训练好大型网络模型,使得网络训练的更迅速,节省大量训练时间。图1为本实施例所提供的示例预训练网络模型的权重分布情况示意图,以AlexNet本文档来自技高网
...

【技术保护点】
1.一种基于幂律分布的权重初始化方法,其特征在于具体操作步骤如下:/nS1、建立cifar10数据集的AlexNet和深度残差网络模型,并计算卷积层权重数量:/n卷积是一种有效提取图片特征的方法,用一个正方形卷积核,遍历图片上的每一个像素点,图片与卷积核重合区域内相对应的每一个像素值,乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得到输出图片中的一个像素值;图片分灰度图和彩色图,卷积核能够是单个也能够是多个,而卷积核中的各个参数就是卷积层的权重,卷积核参数个数就是卷积层的权重个数,依据卷积核的维度和个数,便能够计算出该卷积层所需权重的数量;/nS2、生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据:/n幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数的分布,以幂律函数为概率密度函数,根据卷积层中需要初始化的参数个数,依次生成每一层对应的基于幂律分布的初始化数据;/nS3、在深度学习模型中应用步骤S2提出的初始化数据进行权重初始化:/n在网络初始化时,使用步骤S1中制作的数据来初始化网络模型,按层初始化完成后,放入数据集进行训练,保存每一轮次在验证集中的正确率;/nS4、将步骤S2中提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比:/n将使用步骤S2中提出的基于幂律分布的权重初始化方法与He初始化方法的训练情况进行对比,对比每一轮次训练结束后的模型正确率,结果可显示,在第一轮次发挥优势,正确率有显著的提升,并且最终的精确度也高于He初始化方法精确度。/n...

【技术特征摘要】
1.一种基于幂律分布的权重初始化方法,其特征在于具体操作步骤如下:
S1、建立cifar10数据集的AlexNet和深度残差网络模型,并计算卷积层权重数量:
卷积是一种有效提取图片特征的方法,用一个正方形卷积核,遍历图片上的每一个像素点,图片与卷积核重合区域内相对应的每一个像素值,乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得到输出图片中的一个像素值;图片分灰度图和彩色图,卷积核能够是单个也能够是多个,而卷积核中的各个参数就是卷积层的权重,卷积核参数个数就是卷积层的权重个数,依据卷积核的维度和个数,便能够计算出该卷积层所需权重的数量;
S2、生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据:
幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数的分布,以幂律函数为概率密度函数,根据卷积层中需要初始化的参数个数,依次生成每一层对应的基于幂律分布的初始化数据;
S3、在深度学习模型中应用步骤S2提出的初始化数据进行权重初始...

【专利技术属性】
技术研发人员:孙仁诚邢彤彤隋毅孙凤霄尹来国陈珊
申请(专利权)人:青岛大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1