神经网络模型的训练方法及装置制造方法及图纸

技术编号:33122138 阅读:10 留言:0更新日期:2022-04-17 00:26
本公开提供一种神经网络模型的训练方法及装置。所述方法包括:获取与所述神经网络模型的攻击防御需求相应的原始数据集;利用所述原始数据集对所述神经网络模型进行预训练,以得到预训练模型;基于协方差矩阵自适应进化策略CMA

【技术实现步骤摘要】
神经网络模型的训练方法及装置


[0001]本公开涉及深度学习领域,尤其涉及一种神经网络模型的训练方法及装置。

技术介绍

[0002]机器学习技术尤其是深度学习,在生活中得到了广泛的应用,包括军事、工业、医疗和互联网等领域。然而,随着机器学习相关技术及系统在全世界各领域的各种基础设施中应用的越来越广泛,有越来越多的恶意人员及机构将相关系统视为目标,试图去攻击他们;机器学习系统被攻击会为应用其的场景带来严重的后果,伴随着机器学习系统的发展和应用,其安全问题也逐渐受到大家的关注。
[0003]如何建立有效的防御机制是确保机器学习系统安全的关键。现有技术中的防御技术有基于木马模式识别的攻击检测防御方法、利用网络梯度信息及生成对抗网络的对抗训练防御方法、基于神经元修复和剪枝的对抗防御方法等。然而,大部分防御技术都是通过可知攻击样本的模式信息,去实现攻击检测或防御模型的构建;对于未知攻击样本的模式信息,并没有有效的办法进行防范。

技术实现思路

[0004]有鉴于此,本公开的目的在于提出一种神经网络模型的训练方法及装置。
[0005]基于上述目的,本公开一个或多个实施例提供了一种神经网络模型的训练方法,包括:获取与所述神经网络模型的攻击防御需求相应的原始数据集;
[0006]利用所述原始数据集对所述神经网络模型进行预训练,以得到预训练模型;
[0007]基于协方差矩阵自适应进化策略CMA

ES,利用训练数据集对所述预训练模型进行补充训练,以得到目标模型。
[0008]作为本公开一实施例的进一步改进,基于协方差矩阵自适应进化策略CMA

ES,利用所述训练数据集对所述预训练模型进行补充训练,以得到目标模型,包括如下步骤:
[0009]S41将所述预训练模型的中间层变化建模为多维高斯分布;
[0010]S42在所述多维高斯分布内采样中间层参数的候选解集合,形成多个候选神经网络模型;
[0011]S43根据用户选择的训练数据生成方式,基于所述候选神经网络模型的结构和参数信息从所述原始数据集生成训练数据集;
[0012]S44将所述训练数据集输入所述候选神经网络模型,评估所述候选神经网络模型的鲁棒性;
[0013]S45按照鲁棒性从高到低进行排序,从鲁棒性最高开始选取预先设定比例的候选神经网络模型作为优选神经网络模型;
[0014]S46基于所述优选神经网络模型的中间层参数,更新所述多维高斯分布的参数,得到新的多维高斯分布;
[0015]重复步骤S42至S46,直至满足预先设定的终止条件时,将所述优选神经网络模型
作为目标模型。
[0016]作为本公开一实施例的进一步改进,所述预先设定终止条件为:
[0017]重复迭代的次数阈值、准确率阈值或所述准确率在迭代过程中不再提升中的至少一个。
[0018]作为本公开一实施例的进一步改进,将所述预训练模型的中间层变化建模为多维高斯分布,包括:
[0019]将所述预训练模型的中间层参数的解空间建模为多维高斯分布N(μ,σ2C),其中,μ为分布的均值,σ为学习步长,C为协方差矩阵;
[0020]获取所述预训练模型的中间层参数值,将所述参数值作为所述多维高斯分布的初始均值μ,在0.0001

0.1区间内初始化学习步长σ。
[0021]作为本公开一实施例的进一步改进,所述学习步长σ初始化为0.1。
[0022]作为本公开一实施例的进一步改进,所述获取原始数据集包括:
[0023]选择与预训练模型使用场景匹配的公开数据集或自定义数据集中的至少一种作为原始数据,所述原始数据集包括像素级矩阵数据存储的图片。
[0024]作为本公开一实施例的进一步改进,根据用户选择的训练数据生成方式,基于所述候选神经网络模型的结构和参数信息从所述原始数据集生成训练数据集,包括如下步骤:
[0025]基于所述候选神经网络模型的结构和参数信息,采用多步生成训练数据方式生成所述训练数据集。
[0026]作为本公开一实施例的进一步改进,所述多步生成训练数据方式包括:采用投影梯度下降方式生成训练数据。
[0027]作为本公开一实施例的进一步改进,所述候选神经网络模型的鲁棒性包括对所述训练数据集的分类准确率和交叉熵等损失函数值中的至少一个。
[0028]本公开一个或多个实施例提供一种神经网络对抗防御装置,包括:
[0029]存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的神经网络模型的训练方法。
[0030]从上面所述可以看出,本公开提供的神经网络模型的训练方法及装置,运用协方差矩阵对未知攻击存在的随机性进行建模,运用进化策略算法和神经网络微调技术的结合,在确保网络对于已知攻击的效果的前提下,进而提高网络对于未知攻击的防御能力,进一步提高深度学习相关系统的安全性。该方法不受限于数据集的情况及具体模型,根据不同数据集的情况,对指定模型进行补充训练或修复,从而提高神经网络对抗防御的高效性,提高深度学习相关系统的安全性。
[0031]参照后文的说明和附图,详细公开了特定的实施方式,指明了本公开技术方案的原理可以被采用的方式。应该理解,本公开的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本公开的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
附图说明
[0032]为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本公开实施例提供的神经网络模型的训练方法的示意图;
[0034]图2为本公开实施例提供的对预训练模型进行补充训练,以得到目标模型的方法示意图;
[0035]图3为本公开实施例提供的神经网络对抗防御装置的示意图。
具体实施例
[0036]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0037]需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0038]请参见图1,本公开的实施例提供的神经网络模型的训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法,其特征在于,包括:获取与所述神经网络模型的攻击防御需求相应的原始数据集;利用所述原始数据集对所述神经网络模型进行预训练,以得到预训练模型;基于协方差矩阵自适应进化策略CMA

ES,利用训练数据集对所述预训练模型进行补充训练,以得到目标模型。2.根据权利要求1所述的神经网络模型的训练方法,其特征在于,基于协方差矩阵自适应进化策略CMA

ES,利用训练数据集对所述预训练模型进行补充训练,以得到目标模型,包括如下步骤:S41将所述预训练模型的中间层变化建模为多维高斯分布;S42在所述多维高斯分布内采样中间层参数的候选解集合,形成多个候选神经网络模型;S43根据用户选择的训练数据生成方式,基于所述候选神经网络模型的结构和参数信息从所述原始数据集生成训练数据集;S44将所述训练数据集输入所述候选神经网络模型,评估所述候选神经网络模型的鲁棒性;S45按照鲁棒性从高到低进行排序,从鲁棒性最高开始选取预先设定比例的候选神经网络模型作为优选神经网络模型;S46基于所述优选神经网络模型的中间层参数,更新所述多维高斯分布的参数,得到新的多维高斯分布;重复步骤S42至S46,直至满足预先设定的终止条件时,将所述优选神经网络模型作为目标模型。3.根据权利要求2所述的神经网络模型的训练方法,其特征在于,所述预先设定终止条件为:重复迭代的次数阈值、鲁棒性参数阈值或所述鲁棒性参数在迭代过程中不再提升中的至少一个。4.根据权利要求2所述的神经网络模型的训练方法,其特征在于,将所述预训练模型的中间层...

【专利技术属性】
技术研发人员:王玉龙王东霞曹梦华苏森徐鹏双锴张忠宝程祥
申请(专利权)人:中国人民解放军三二八零二部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1