当前位置: 首页 > 专利查询>清华大学专利>正文

一种训练集处理方法和装置制造方法及图纸

技术编号:32436159 阅读:13 留言:0更新日期:2022-02-26 07:54
本申请公开了人工智能领域的一种训练集处理方法,用于通过提取训练集的主分量训练神经网络,可以使用更鲁棒的特征来进行神经网络的训练,从而在不降低神经网络的输出准确率的基础上,提升得到的神经网络的鲁棒性。该方法包括:首先,获取第一训练集的基和离散序列,离散序列包括与基中的每个基向量一一对应的离散值,离散序列用于表示基的离散程度;然后,获取每个样本在每个基向量上的分量值,以得到多组第一编码数据;随后,获取每组第一编码数据中的主分量,得到多组第二编码数据,主分量对应的离散值高于预设离散值;根据多组第二编码数据进行映射,得到新的样本,以组成第二训练集,第二训练集用于训练神经网络。第二训练集用于训练神经网络。第二训练集用于训练神经网络。

【技术实现步骤摘要】
一种训练集处理方法和装置


[0001]本申请涉及人工智能领域,尤其涉及一种训练集处理方法和装置。

技术介绍

[0002]在人工智能领域中,神经网络近年来在计算机视觉、自然语言处理、网络安全等任务中的一系列突破,展现了智能时代的全新可能。然而神经网络普遍存在难以解释的对对抗样本的脆弱性,其有可能被加在其输入数据上的非常微小但精心设计的噪声所欺骗而得出错误的结果,这种精心构造的样本被称为对抗样本。
[0003]面对对抗具有脆弱性的人工智能系统显然无法使用于安全要求高的领域如医疗,智能驾驶等领域。因此分析导致人工神经网络脆弱的因素,获得具有对抗鲁棒性的人工神经网络至关重要。在现有方案中,可以在原样本的基础上增加较多的对抗样本,将原样本和对抗样本都加入训练集中进行训练,从而使训练得到的神经网络可以识别出对抗样本中的扰动。然而,对抗训练的效果受模型的影响较大,可能针对不同的模型产生了完全不同的效果,且对抗训练需要在训练过程中不断产生对抗样本,大大降低了训练效率,且可能造成训练得到的神经网络的输出准确率下降,即降低了神经网络的鲁棒性。因此,如何得到鲁棒性更优的神经网络,成为亟待解决的问题。

技术实现思路

[0004]本申请提供一种训练集处理方法,用于通过提取训练集的主分量训练神经网络,可以使用更鲁棒的特征来进行神经网络的训练,从而在不降低神经网络的输出准确率的基础上,提升得到的神经网络的鲁棒性。
[0005]有鉴于此,第一方面,本申请提供一种训练集处理方法,包括:首先,根据第一训练集进行分解,得到第一训练集的基和该基的离散序列,该第一训练集中包括多个样本,该第一训练集的基可以理解为多个方向的数据组成的空间,该基中包括至少一个基向量,离散序列包括与基中的每个基向量一一对应的离散值,离散序列可以用于表示基的离散程度;然后,获取第一训练集中的每个样本在每个基向量上的分量值,得到多组第一编码数据,其中,每组第一编码数据对应一个样本,每个样本在每个基向量中具有一个分量值,该第一编码数据中包括的每个基向量对应一个分量,第一编码数据包括的分量与至少一个基向量一一对应;获取多组第一编码数据中的每组第一编码数据中的主分量,得到多组第二编码数据,主分量的离散值高于预设离散值,或者说第一编码数据中的离散值高于预设值的分量组成了主分量;将该多组第二编码数据映射至第一训练集的,得到多组第二编码数据对应的新的样本,多组第二编码数据对应的样本组成第二训练集,第二训练集用于训练神经网络,从而得到鲁棒性更优的神经网络。
[0006]因此,在本申请实施方式中,在提取到每个样本在基中的第一编码数据中的主分量之后,得到降低了干扰之后的第二编码数据,可以根据第二编码数据得到新的样本,并使用新的样本进行神经网络训练。而新的样本中减少了除主要分量外的其他分量的干扰,从
而使得训练得到的神经网络可以通过主分量进行训练,提高神经网络的鲁棒性。并且,本申请提供的数据集处理方法,针对训练集进行了处理,处理方式仅与训练集本身的主分量的分布有关,因此,即使在不同的场景中训练不同的模型,也可以使用本申请提供的训练集处理方法对训练集进行处理,泛化能力强,不依赖于被训练模型的通用算法,从而具有较高的通用性。
[0007]在一种可能的实施方式中,根据第一训练集获得所述第一训练集的基和所述基的离散序列,可以包括:对第一训练集进行主成分分析(principal component analysis,PCA)处理,得到正交基和正交基的离散序列。
[0008]通常,对第一训练集进行分解的方式可以有多种,如PCA处理或者稀疏编码等方式对第一训练集进行分解,从而得到第一训练集的基和离散序列,进而获取到第一训练集的每个样本的分量。
[0009]在一种可能的实施方式中,对第一训练集进行PCA处理,得到正交基和正交基的离散序列,可以包括:对第一训练集进行中心化处理,得到中心化后的第一训练集,中心化后的第一训练集包括的数据的均值为0;对中心化后的第一训练集进行PCA处理,得到正交基,以及正交基的离散序列,离散序列包括中心化后的第一训练集在正交基中的方差组成的序列。通常,离散序列所包括的方差呈递减排列,且离散序列所包括的方差按顺序和正交基中的基向量按顺序一一对应。
[0010]本申请实施方式中,可以对第一训练集进行中心化处理,得到中心化后的第一训练集,然后对中心化后的训练集进行PCA处理,从而完成对第一训练集的快速分析,得到正交基和正交基的离散序列。
[0011]在一种可能的实施方式中,获取第一训练集中的每个样本在基中的分量值,可以包括:通过预设算法,计算中心化后的第一训练集中的每个样本在正交基中的每个基向量上的分量值,得到多组第一编码数据。
[0012]本申请实施方式中,若对第一训练集进行PCA处理,相应地,可以基于PCA处理后的正交基计算每个样本在每个基向量上的分量值,从而得到第一编码数据。
[0013]在一种可能的实施方式中,预设算法包括内积运算或者稀疏编码运算。本申请实施方式中,可以通过内积运算或者稀疏编码运算计算每个样本在每个基向量上的分量值,实现了对每个样本在每个基向量上的投影。
[0014]在一种可能的实施方式中,获取每组第一编码数据中的主分量,得到多组第二编码数据,可以包括:保留每组第一编码数据中的主分量,将每组第一编码数据中除主分量外的其他分量替换为预设的值,得到多组第二编码数据,其中,每组第一编码数据的主分量组成至少一组第二编码数据。本申请实施方式中,可以将每组第一编码数据中除主分量外的其他分量替换为预设的值,从而使每组第一编码数据的分量可以组成一组或者多组第二编码数据。
[0015]在一种可能的实施方式中,预设的值包括0或者预设的噪声向量,预设的噪声向量包括高斯噪声或者均匀分布噪声。
[0016]因此,本申请实施方式中,可以将第一编码数据中除主分量以外的值替换为0或者预设的噪声向量,从而得到一组或者多组第二编码数据,以降低第一训练集中每个样本中除主分量以外的值对神经网络的训练的影响,提高最终得到的神经网络的鲁棒性。
[0017]在一种可能的实施方式中,预设的噪声向量与被换的分量的离散值成比例。因此,本申请实施方式中,替换的噪声向量与第一编码数据中原有的数据的分布方式类似,在降低了每个样本中除主分量以外的值对神经网络的训练的影响的基础上,降低对神经网络的训练的干扰,得到的神经网络的输出更准确。
[0018]第二方面,本申请提供一种训练集处理装置,包括:
[0019]分解单元,用于根据第一训练集获得第一训练集的基和该基的离散序列,第一训练集中包括多个样本,基中包括至少一个基向量,离散程度包括与基中的每个基向量一一对应的离散值,离散序列用于表示基的离散程度;
[0020]获取单元,用于获取第一训练集中的每个样本在基中的分量值,得到多组第一编码数据,每组第一编码数据对应一个样本;
[0021]获取单元,还用于获取多组第一编码数据中的每组第一编码数据中的主分量,得到多组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练集处理方法,其特征在于,包括:根据第一训练集获得所述第一训练集的基和所述基的离散序列,所述第一训练集中包括多个样本,所述基中包括至少一个基向量,所述离散序列包括与所述基中的每个基向量一一对应的离散值;获取所述第一训练集中的每个样本在所述每个基向量上的分量值,以得到多组第一编码数据,每组第一编码数据对应一个样本;获取所述多组第一编码数据中的每组第一编码数据中的主分量,得到多组第二编码数据,所述主分量的离散值高于预设离散值;将所述多组第二编码数据映射至所述第一训练集的基,得到所述多组第二编码数据对应的样本,所述多组第二编码数据对应的样本组成第二训练集,所述第二训练集用于训练神经网络。2.根据权利要求1所述的方法,其特征在于,所述第一训练集的基为正交基,所述根据第一训练集获得所述第一训练集的基和所述基的离散序列,包括:对所述第一训练集进行主成分分析PCA处理,得到所述正交基和所述正交基的离散序列。3.根据权利要求2所述的方法,其特征在于,所述对所述第一训练集进行主成分分析PCA处理,得到正交基和所述正交基的离散序列,包括:对所述第一训练集进行中心化处理,得到中心化后的第一训练集,所述中心化后的第一训练集包括的数据的均值为0;对所述中心化后的第一训练集进行所述PCA处理,得到所述正交基,以及所述正交基的离散序列,所述离散序列包括所述中心化后的第一训练集在所述正交基中的方差组成的序列。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一训练集中的每个样本在所述每个基向量上的分量值,包括:通过预设算法,计算所述中心化后的第一训练集中的每个样本在所述正交基中的每个基向量的分量值,得到所述多组第一编码数据。5.根据权利要求4所述的方法,其特征在于,所述预设算法包括内积运算或者稀疏编码运算。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取所述每组第一编码数据中的主分量,得到多组第二编码数据,包括:保留所述每组第一编码数据中的所述主分量,将所述每组第一编码数据中除所述主分量外的其他分量替换为预设的值,得到所述多组第二编码数据,其中,所述每组第一编码数据的主分量组成至少一组第二编码数据。7.根据权利要求6所述的方法,其特征在于,所述预设的值包括0或者预设的噪声向量,所述预设的噪声向量包括高斯噪声或者均匀分布噪声。8.根据权利要求7所述的方法,其特征在于,所述预设的噪声向量与被替换的分量的离散值成比例。9.一种训练集处理装置,其特征在于,包括:分解单元,用于根据第一训练集获得所述第一训练集的基和所述基的离散序列,所述
第一训练集中包括多个样本,所述基中包括至少一个基向量...

【专利技术属性】
技术研发人员:李玥儒程书宇苏航朱军戴挺时杰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1