【技术实现步骤摘要】
深度学习网络模型中的同胚模型变换方法及系统
[0001]本专利技术涉及神经网络,尤其涉及一种深度学习网络模型中的同胚模型变换方法及系统。
技术介绍
[0002]在过去几年中,深度神经网络在许多具有挑战性的应用中取得了巨大成功,例如语音识别、图像识别和机器翻译。伴随着这一成功的是从功能设计到架构设计的范式转变。当前的模型架构基于标准主干的扩展,如ResNet、VGGNet、GoogLeNet和DarkNet53。这些常用的主干具有与其匹配的预训练权重。但是这些训练权重不能自动适应骨干的微小变化。例如,在传统的训练方法中,当向网络添加新的卷积层时,需要相应地扩展后续层的权重矩阵。但这些后续层不能继承先前训练的权重。在这种情况下,网络通常需要重新培训,导致效率低下。比如,一个网络是在1000级ImageNet分类集上训练的。然而,这些基于ImageNet分类数据集设计的网络架构可能无法在其他数据集中实现最佳性能。当新的特征图或卷积层被添加到ResNet50的架构中时,仍然需要大量时间来使用训练数据进行再训练。根据对yolov4[10
‑
11]的实验经验,长期训练固有模型架构会因过度拟合而导致性能下降。
[0003]如图1(a)所示,按照传统方法,至少需要几十个小时来训练仅仅一个新的模型架构。可见,深度学习应用中的一个紧迫问题就是模型权重不能适应模型体系结构的变化。因此,探索模型体系结构是提高性能的有效手段。
技术实现思路
[0004]本专利技术主要目的在于提供一种同胚模型变换方法, ...
【技术保护点】
【技术特征摘要】
1.一种深度学习网络模型中的同胚模型变换方法,其特征在于,包括以下步骤:将给定的深度学习神经网络模型进行同胚模型变换;其中,同胚模型变换的定义为:假设F(W,X)为任意一个深度学习网络的数学模型,X为任意输入矢量,W是相应权重参数,将一切满足F
+
(W
+
,X)=F(W,X)或|F(W,X)
‑
F
+
(W
+
,X)|值最小的模型F
+
(W
+
,X)的构建方式都称为同胚模型变换,F
+
为转换后的模型架构,W
+
为新的权重参数;将经过同胚模型变换后的模型架构F
+
以新的权重参数W
+
作为初始权值进行模型迭代训练。2.根据权利要求1所述的深度学习网络模型中的同胚模型变换方法,其特征在于,经过同胚模型变换快速将给定的深度学习神经网络模型生成第二代模型,其中预设性能良好条件的第二代模型继续经过同胚模型变换生成第三代模型,依此类推,生成自动优胜劣汰的同胚模型树。3.根据权利要求1所述的深度学习网络模型中的同胚模型变换方法,其特征在于,同胚模型变换的方式为以下四种改进方式中的任意一种或者任意组合,任意组合中四种改进方式根据需要以一定频次和顺序进行组合:1)在卷积层中添加或者删除特征图;2)增加或者删除卷积层;3)添加或者删除跨层连接;4)扩展或缩小卷积核。4.根据权利要求3所述的深度学习网络模型中的同胚模型变换方法,其特征在于,在卷积层中添加特征图的方式具体为:向卷积层k的输出添加n
e
个特征图,卷积层k的输入通道的数量为m,输出通道的数量为n,卷积核的大小为s
×
s,对应的权重矩阵的维数为n
×
m
×
[s
×
s];将深度学习神经网络模型中所有与n
e
个特征图相关的张量都相应扩展,扩展后的权重矩阵的维数为(n+n
e
)
×
m
×
[s
×
s];扩展后的权重矩阵的初始值设置为0,且输出通道的偏置值b的初始值也设置为0;添加特征图对应的权值在后训练过程中被优化;新添加的n
e
个特征图所新扩展的n
e
个通道配置在深度学习神经网络模型输出的末尾,或者分散在深度学习神经网络模型的中间。5.根据权利要求3所述的深度学习网络模型中的同胚模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。