【技术实现步骤摘要】
一种训练集处理方法和装置
[0001]本申请涉及人工智能领域,尤其涉及一种训练集处理方法和装置。
技术介绍
[0002]在人工智能领域中,神经网络近年来在计算机视觉、自然语言处理、网络安全等任务中的一系列突破,展现了智能时代的全新可能。然而神经网络普遍存在难以解释的对对抗样本的脆弱性,其有可能被加在其输入数据上的非常微小但精心设计的噪声所欺骗而得出错误的结果,这种精心构造的样本被称为对抗样本。
[0003]面对对抗具有脆弱性的人工智能系统显然无法使用于安全要求高的领域如医疗,智能驾驶等领域。因此分析导致人工神经网络脆弱的因素,获得具有对抗鲁棒性的人工神经网络至关重要。在现有方案中,可以在原样本的基础上增加较多的对抗样本,将原样本和对抗样本都加入训练集中进行训练,从而使训练得到的神经网络可以识别出对抗样本中的扰动。然而,对抗训练的效果受模型的影响较大,可能针对不同的模型产生了完全不同的效果,且对抗训练需要在训练过程中不断产生对抗样本,大大降低了训练效率,且可能造成训练得到的神经网络的输出准确率下降,即降低了神经网络的鲁 ...
【技术保护点】
【技术特征摘要】
1.一种训练集处理方法,其特征在于,包括:根据第一训练集获得所述第一训练集的基和所述基的离散序列,所述第一训练集中包括多个样本,所述基中包括至少一个基向量,所述离散序列包括与所述基中的每个基向量一一对应的离散值;获取所述第一训练集中的每个样本在所述每个基向量上的分量值,以得到多组第一编码数据,每组第一编码数据对应一个样本;获取所述多组第一编码数据中的每组第一编码数据中的主分量,得到多组第二编码数据,所述主分量的离散值高于预设离散值;将所述多组第二编码数据映射至所述第一训练集的基,得到所述多组第二编码数据对应的样本,所述多组第二编码数据对应的样本组成第二训练集,所述第二训练集用于训练神经网络。2.根据权利要求1所述的方法,其特征在于,所述第一训练集的基为正交基,所述根据第一训练集获得所述第一训练集的基和所述基的离散序列,包括:对所述第一训练集进行主成分分析PCA处理,得到所述正交基和所述正交基的离散序列。3.根据权利要求2所述的方法,其特征在于,所述对所述第一训练集进行主成分分析PCA处理,得到正交基和所述正交基的离散序列,包括:对所述第一训练集进行中心化处理,得到中心化后的第一训练集,所述中心化后的第一训练集包括的数据的均值为0;对所述中心化后的第一训练集进行所述PCA处理,得到所述正交基,以及所述正交基的离散序列,所述离散序列包括所述中心化后的第一训练集在所述正交基中的方差组成的序列。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一训练集中的每个样本在所述每个基向量上的分量值,包括:通过预设算法,计算所述中心化后的第一训练集中的每个样本在所述正交基中的每个基向量的分量值,得到所述多组第一编码数据。5.根据权利要求4所述的方法,其特征在于,所述预设算法包括内积运算或者稀疏编码运算。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取所述每组第一编码数据中的主分量,得到多组第二编码数据,包括:保留所述每组第一编码数据中的所述主分量,将所述每组第一编码数据中除所述主分量外的其他分量替换为预设的值,得到所述多组第二编码数据,其中,所述每组第一编码数据的主分量组成至少一组第二编码数据。7.根据权利要求6所述的方法,其特征在于,所述预设的值包括0或者预设的噪声向量,所述预设的噪声向量包括高斯噪声或者均匀分布噪声。8.根据权利要求7所述的方法,其特征在于,所述预设的噪声向量与被替换的分量的离散值成比例。9.一种训练集处理装置,其特征在于,包括:分解单元,用于根据第一训练集获得所述第一训练集的基和所述基的离散序列,所述
第一训练集中包括多个样本,所述基中包括至少一个基向量...
【专利技术属性】
技术研发人员:李玥儒,程书宇,苏航,朱军,戴挺,时杰,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。