【技术实现步骤摘要】
一种基于噪音数据的机器学习模型鲁棒性评估方法
本专利技术属于机器学习应用领域,特别是涉及到对模型鲁棒性评估。我们通过衡量噪音数据对模型的影响大小,评估了模型的鲁棒性。
技术介绍
机器学习是人工智能研究的重要分支,通过组织和拟合参数,进行学习特征的表示。因其较高的泛化能力和效率,被越来越广泛的应用在学术界和工业界。按其学习形式可分为:监督学习,无监督学习和半监督学习。其中,监督学习是机器学习的重要方面,它是已知数据和其对应的标签,训练一个智能算法,将输入数据映射到标签的过程。监督学习问题的数据由输入X和输出标签Y构成,然而有很多输出标签Y是错的。对于标记错误的数据,可能存在于训练集、开发集或者测试集上。机器学习模型对于训练数据是敏感的,相同结构模型由于训练数据的不同在结果上会存在一定的误差。训练集(trainingset)误差的主要原因包括做标记的人不小心错误,或按错分类键等随机误差,又或者是做标记的人理解错误导致一直分错类别这样的系统误差。其中,如果是系统误差,则模型无法识别;如果是随机误差,则模型有可能不会因为这些 ...
【技术保护点】
1.一种基于噪音数据的机器学习模型鲁棒性评估方法,其特征在于在训练集中引入噪音数据,使用机器学习算法对其进行建模,利用准确率下降比可衡量模型的鲁棒性;该方法通过原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算来进行模型鲁棒性的评估。/n
【技术特征摘要】
1.一种基于噪音数据的机器学习模型鲁棒性评估方法,其特征在于在训练集中引入噪音数据,使用机器学习算法对其进行建模,利用准确率下降比可衡量模型的鲁棒性;该方法通过原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算来进行模型鲁棒性的评估。
2.根据权利要求1所述的噪音数据获取,其特征在于:对混有噪音数据的训练集的构造。在原始训练集的基础上,我们将抽取t′=|D|·α个数据,并将其标签替换为错误标签;其中抽样方法采用的是分层抽样法,即,按α比例从不同的类别层中随机抽取样本数据;原始测试集和原始训练集均为标签百分百正确的数据。
3.根据权利要求1所述的准确率下降比计算,其是针对每个模型结构所对应的原始模型和新模型而言的;假设此时的噪音数据率为α,模型结构i的新模型m′i的准确度为a′i,原始模型mi的准确度为ai。定义准确率下降...
【专利技术属性】
技术研发人员:房春荣,龚爱,王栋,陈振宇,李玉莹,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。