当前位置: 首页 > 专利查询>刘进专利>正文

深度学习网络模型中的同胚模型变换方法及系统技术方案

技术编号:37965195 阅读:11 留言:0更新日期:2023-06-30 09:40
本发明专利技术公开了一种深度学习网络模型中的同胚模型变换方法,包括以下步骤:将给定的深度学习神经网络模型进行同胚模型变换;其中,同胚模型变换的定义为:假设F(W,X)为任意一个深度学习网络的数学模型,X为任意输入矢量,W是相应权重参数,将一切满足F

【技术实现步骤摘要】
深度学习网络模型中的同胚模型变换方法及系统


[0001]本专利技术涉及神经网络,尤其涉及一种深度学习网络模型中的同胚模型变换方法及系统。

技术介绍

[0002]在过去几年中,深度神经网络在许多具有挑战性的应用中取得了巨大成功,例如语音识别、图像识别和机器翻译。伴随着这一成功的是从功能设计到架构设计的范式转变。当前的模型架构基于标准主干的扩展,如ResNet、VGGNet、GoogLeNet和DarkNet53。这些常用的主干具有与其匹配的预训练权重。但是这些训练权重不能自动适应骨干的微小变化。例如,在传统的训练方法中,当向网络添加新的卷积层时,需要相应地扩展后续层的权重矩阵。但这些后续层不能继承先前训练的权重。在这种情况下,网络通常需要重新培训,导致效率低下。比如,一个网络是在1000级ImageNet分类集上训练的。然而,这些基于ImageNet分类数据集设计的网络架构可能无法在其他数据集中实现最佳性能。当新的特征图或卷积层被添加到ResNet50的架构中时,仍然需要大量时间来使用训练数据进行再训练。根据对yolov4[10

11]的实验经验,长期训练固有模型架构会因过度拟合而导致性能下降。
[0003]如图1(a)所示,按照传统方法,至少需要几十个小时来训练仅仅一个新的模型架构。可见,深度学习应用中的一个紧迫问题就是模型权重不能适应模型体系结构的变化。因此,探索模型体系结构是提高性能的有效手段。

技术实现思路

[0004]本专利技术主要目的在于提供一种同胚模型变换方法,以使深度学习神经网络模型权重快速适应相应的修改架构。
[0005]本专利技术所采用的技术方案是:
[0006]提供一种深度学习网络模型中的同胚模型变换方法,包括以下步骤:
[0007]将给定的深度学习神经网络模型进行同胚模型变换;其中,同胚模型变换的定义为:假设F(W,X)为任意一个深度学习网络的数学模型,X为任意输入矢量,W是相应权重参数,将一切满足F
+
(W
+
,X)=F(W,X)或|F(W,X)

F
+
(W
+
,X)|值最小的模型F
+
(W
+
,X)的构建方式都称为同胚模型变换,F
+
为转换后的模型架构,W
+
为新的权重参数;
[0008]将经过同胚模型变换后的模型架构F
+
以新的权重参数W
+
作为初始权值进行模型迭代训练。
[0009]接上述技术方案,经过同胚模型变换快速将给定的深度学习神经网络模型架构生成第二代模型,其中预设性能良好条件的第二代模型继续经过同胚模型变换生成第三代模型,依此类推,生成自动优胜劣汰的同胚模型树。
[0010]接上述技术方案,原始网络模型架构F变为同胚改进模型F
+
的方式为以下四种改进方式中的任意一种或者任意组合,任意组合中四种改进方式根据需要以一定频次和顺序进行组合:
[0011]1)在卷积层中添加或者删除特征图;
[0012]2)增加或者删除卷积层;
[0013]3)添加或者删除跨层连接;
[0014]4)扩展或缩小卷积核。
[0015]接上述技术方案,在卷积层中添加特征图的方式具体为:
[0016]向卷积层k的输出添加n
e
个特征图,卷积层k的输入通道的数量为m,输出通道的数量为n,卷积核的大小为s
×
s,对应的权重矩阵的维数为n
×
m
×
[s
×
s];
[0017]将深度学习神经网络模型中所有与n
e
个特征图相关的张量都相应扩展,扩展后的权重矩阵的维数为(n+n
e
)
×
m
×
[s
×
s];
[0018]扩展后的权重矩阵的初始值设置为0,且输出通道的偏置值b的初始值也设置为0;添加特征图对应的权值在后训练过程中被优化;
[0019]新添加的n
e
个特征图所新扩展的n
e
个通道配置在深度学习神经网络模型输出的末尾,或者分散在深度学习神经网络模型的中间。
[0020]接上述技术方案,增加卷积层的方式具体为:若在两个卷积层为A、B之间添加新的卷积层H,记作B(A(X))

B(H(W
H
,A(X)),则保持B(A(X))=B(H(W
H
,A(X))或B(A(X))≈B(H(W
H
,A(X)),新添加的卷积层H为等维形状变换,卷积层H中设置初始权值W
H
满足等值转换恒等式H(W
H
,X)=X。
[0021]接上述技术方案,跨层连接包括两种:cat跨层数据合并和广义残差跨层连接。
[0022]接上述技术方案,cat跨层数据合并将原始数据[x]并联前层数据[x']形成合并数据[x x'],扩展部分数据x'的维度将被传导到后续层,后续层权值矩阵中对应扩展维度的列初始值为0;删除cat跨层数据合并时,后续层权值矩阵中对应x'的列删除。
[0023]广义残差跨层连接传递函数f(x)+g(β,x)中添加了一个可调参数β,β=β0时满足g(β0,x)=0,设置可调参数β初值为β0。
[0024]接上述技术方案,对卷积核进行扩展或缩减,保持扩展后的卷积核的中心部分权值与原始卷积核一致,周边部分初始权值为0。
[0025]接上述技术方案,该方法还包括步骤:找出深度学习神经网络模型中的受同胚模型变换影响的层,并对受影响的层进行适应性匹配修改,保持输入输出的对应维度一致。
[0026]接上述技术方案,当基本深度学习神经网络模型中包含全连接层时,将其按照1x1特征图与1x1卷积核的卷积层特例进行同胚模型变换;当全连接层与卷积层连接时,对受影响的层进行数据维度适配和权值矩阵的适配变换。
[0027]本专利技术还提供一种深度学习网络模型中的同胚模型变换系统,该系统将给定的深度学习神经网络模型进行同胚模型变换;其中,同胚模型变换的定义为:假设F(W,X)为任意一个深度学习网络的数学模型,X为任意输入矢量,W是相应权重参数,将一切满足F
+
(W
+
,X)=F(W,X)或|F(W,X)

F
+
(W
+
,X)|值最小的模型F
+
(W
+
,X)的构建方式都称为同胚模型变换,F
+
为转换后的模型架构,W
+
为新的权重参数;再将经过同胚模型变换后的模型架构F
+
以新的权重参数W
+
作为初始权值进行模型迭代训练。
[0028]本专利技术还提供一种计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习网络模型中的同胚模型变换方法,其特征在于,包括以下步骤:将给定的深度学习神经网络模型进行同胚模型变换;其中,同胚模型变换的定义为:假设F(W,X)为任意一个深度学习网络的数学模型,X为任意输入矢量,W是相应权重参数,将一切满足F
+
(W
+
,X)=F(W,X)或|F(W,X)

F
+
(W
+
,X)|值最小的模型F
+
(W
+
,X)的构建方式都称为同胚模型变换,F
+
为转换后的模型架构,W
+
为新的权重参数;将经过同胚模型变换后的模型架构F
+
以新的权重参数W
+
作为初始权值进行模型迭代训练。2.根据权利要求1所述的深度学习网络模型中的同胚模型变换方法,其特征在于,经过同胚模型变换快速将给定的深度学习神经网络模型生成第二代模型,其中预设性能良好条件的第二代模型继续经过同胚模型变换生成第三代模型,依此类推,生成自动优胜劣汰的同胚模型树。3.根据权利要求1所述的深度学习网络模型中的同胚模型变换方法,其特征在于,同胚模型变换的方式为以下四种改进方式中的任意一种或者任意组合,任意组合中四种改进方式根据需要以一定频次和顺序进行组合:1)在卷积层中添加或者删除特征图;2)增加或者删除卷积层;3)添加或者删除跨层连接;4)扩展或缩小卷积核。4.根据权利要求3所述的深度学习网络模型中的同胚模型变换方法,其特征在于,在卷积层中添加特征图的方式具体为:向卷积层k的输出添加n
e
个特征图,卷积层k的输入通道的数量为m,输出通道的数量为n,卷积核的大小为s
×
s,对应的权重矩阵的维数为n
×
m
×
[s
×
s];将深度学习神经网络模型中所有与n
e
个特征图相关的张量都相应扩展,扩展后的权重矩阵的维数为(n+n
e
)
×
m
×
[s
×
s];扩展后的权重矩阵的初始值设置为0,且输出通道的偏置值b的初始值也设置为0;添加特征图对应的权值在后训练过程中被优化;新添加的n
e
个特征图所新扩展的n
e
个通道配置在深度学习神经网络模型输出的末尾,或者分散在深度学习神经网络模型的中间。5.根据权利要求3所述的深度学习网络模型中的同胚模型...

【专利技术属性】
技术研发人员:刘进
申请(专利权)人:刘进
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1