当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于噪音数据的机器学习模型鲁棒性评估方法技术

技术编号:23162287 阅读:25 留言:0更新日期:2020-01-21 22:05
本发明专利技术提供的是一种基于噪音数据的机器学习模型鲁棒性评估方法,包括原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算和模型鲁棒性评估。原始数据集处理包括收集百分百标签正确的原始数据集,并采用10次10‑折交叉验证划分原始训练集和原始测试集。噪音数据获取包括在原始训练集的基础上,采用分层抽样方法抽取t′=|D|·α个数据,并将其标签替换为错误标签,其中α为噪音数据率。模型训练包括基于常见分类算法,并分别输入原始训练集和混有噪音数据的训练集分别构建原始模型和新模型。模型预测包括基于原始测试集,对这原始模型和新模型分别进行准确度评估。准确率下降比计算包括计算新模型较原始模型而言准确率下降的比率。模型鲁棒性评估包括横纵向比较准确率下降的比率的大小,衡量模型鲁棒性强弱,实现了判断模型健壮性的标准。

A robust evaluation method of machine learning model based on noise data

【技术实现步骤摘要】
一种基于噪音数据的机器学习模型鲁棒性评估方法
本专利技术属于机器学习应用领域,特别是涉及到对模型鲁棒性评估。我们通过衡量噪音数据对模型的影响大小,评估了模型的鲁棒性。
技术介绍
机器学习是人工智能研究的重要分支,通过组织和拟合参数,进行学习特征的表示。因其较高的泛化能力和效率,被越来越广泛的应用在学术界和工业界。按其学习形式可分为:监督学习,无监督学习和半监督学习。其中,监督学习是机器学习的重要方面,它是已知数据和其对应的标签,训练一个智能算法,将输入数据映射到标签的过程。监督学习问题的数据由输入X和输出标签Y构成,然而有很多输出标签Y是错的。对于标记错误的数据,可能存在于训练集、开发集或者测试集上。机器学习模型对于训练数据是敏感的,相同结构模型由于训练数据的不同在结果上会存在一定的误差。训练集(trainingset)误差的主要原因包括做标记的人不小心错误,或按错分类键等随机误差,又或者是做标记的人理解错误导致一直分错类别这样的系统误差。其中,如果是系统误差,则模型无法识别;如果是随机误差,则模型有可能不会因为这些随机误差有很大的变化本文档来自技高网...

【技术保护点】
1.一种基于噪音数据的机器学习模型鲁棒性评估方法,其特征在于在训练集中引入噪音数据,使用机器学习算法对其进行建模,利用准确率下降比可衡量模型的鲁棒性;该方法通过原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算来进行模型鲁棒性的评估。/n

【技术特征摘要】
1.一种基于噪音数据的机器学习模型鲁棒性评估方法,其特征在于在训练集中引入噪音数据,使用机器学习算法对其进行建模,利用准确率下降比可衡量模型的鲁棒性;该方法通过原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算来进行模型鲁棒性的评估。


2.根据权利要求1所述的噪音数据获取,其特征在于:对混有噪音数据的训练集的构造。在原始训练集的基础上,我们将抽取t′=|D|·α个数据,并将其标签替换为错误标签;其中抽样方法采用的是分层抽样法,即,按α比例从不同的类别层中随机抽取样本数据;原始测试集和原始训练集均为标签百分百正确的数据。


3.根据权利要求1所述的准确率下降比计算,其是针对每个模型结构所对应的原始模型和新模型而言的;假设此时的噪音数据率为α,模型结构i的新模型m′i的准确度为a′i,原始模型mi的准确度为ai。定义准确率下降...

【专利技术属性】
技术研发人员:房春荣龚爱王栋陈振宇李玉莹
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1