【技术实现步骤摘要】
一种基于分类错误率和一致性预测的概念漂移检测方法
本专利技术提出了一种基于分类错误率和一致性预测的概念漂移检测方法,属于计算机机器学习和信息安全
技术介绍
随着大数据时代的到来,机器学习算法在众多领域的应用飞速发展。其中,基于大数据技术的信息安全是近几年最活跃的研究热点之一,出现了大量代码克隆检测模型、恶意代码分类模型、漏洞预测模型、缺陷预测模型等机器学习分类模型,这些模型在构建时都获得了极高的准确率。在信息安全领域,软件随时间不断演化,出现了不同的类别。以恶意软件为例,根据行为特点可以分为木马、蠕虫等大类,还可以进一步细分成小类,这种小类被称为家族。同一家族的恶意软件还可以演化成不同变种。恶意软件的大类变化较小,新的家族不断出现,有些家族还不断产生变种。分析表明,不同家族之间的差异较大,同一家族的不同变种之间差异较小,因此新家族的产生会引起恶意代码出现突变型概念漂移,而新变种的产生则引起渐进型概念漂移。由此可见,为了提高软件分类器的可持续性,在新软件不断出现的情况下长期保持较高的准确率,有必要及时准确地检测软件中的概念漂移,包括突变型概念漂移和渐进型概念漂移。攻击者为了逃避检测,通过变形等混淆技术以及0Day漏洞的利用,使得恶意代码在不断变异和进化,其分布随时间发生改变,产生了概念漂移现象,最终导致以前构建的分类模型无法正确地对漂移数据进行分类,引起模型退化问题。恶意代码通过加壳、变形、混淆等技术不断生成新的变种,随着时间会产生两种类型的概念漂移,突变型概念漂移和渐进型概念漂移。突变型概念 ...
【技术保护点】
1.一种基于分类错误率和一致性预测的概念漂移检测方法,其特征在于,/n首先,通过计算模型分类错误率的变化来检测突变型概念漂移,然后,通过计算分类错误的样本与分类正确的样本一致性程度来检测渐进型概念漂移;/n其中,基于分类错误率的突变型概念漂移检测,是通过检测样本数据分布的改变来检测概念漂移;当概念发生变化时,数据的分布发生改变,分类模型会对发生漂移的样本产生错误的分类预测,因此,如果分类错误率增加,则表明发生了概念漂移;首先使用分类模型对样本进行分类,标记分类错误的样本,并计算分类错误率,若分类错误率大于漂移阈值,则说明发生突变型概念漂移;/n若所有样本都完成分类,而分类错误率仍小于漂移阈值,则进一步使用一致性预测器算法检测渐进型概念漂移;通过计算分类错误的样本的p值,判断分类错误的样本中是否存在以前未出现的新类,若存在样本的p值小于漂移阈值,则说明数据发生渐进型概念漂移,若所有分类错误的样本的p值都大于漂移阈值,则说明数据未发生概念漂移。/n
【技术特征摘要】
1.一种基于分类错误率和一致性预测的概念漂移检测方法,其特征在于,
首先,通过计算模型分类错误率的变化来检测突变型概念漂移,然后,通过计算分类错误的样本与分类正确的样本一致性程度来检测渐进型概念漂移;
其中,基于分类错误率的突变型概念漂移检测,是通过检测样本数据分布的改变来检测概念漂移;当概念发生变化时,数据的分布发生改变,分类模型会对发生漂移的样本产生错误的分类预测,因此,如果分类错误率增加,则表明发生了概念漂移;首先使用分类模型对样本进行分类,标记分类错误的样本,并计算分类错误率,若分类错误率大于漂移阈值,则说明发生突变型概念漂移;
若所有样本都完成分类,而分类错误率仍小于漂移阈值,则进一步使用一致性预测器算法检测渐进型概念漂移;通过计算分类错误的样本的p值,判断分类错误的样本中是否存在以前未出现的新类,若存在样本的p值小于漂移阈值,则说明数据发生渐进型概念漂移,若所有分类错误的样本的p值都大于漂移阈值,则说明数据未发生概念漂移。
2.如权利要求1所述的一种基于分类错误率和一致性预测的概念漂移检测方法,其特征在于,使用分类模型对样本进行分类的方法为:
将测试数据集的数据依次输入分类模型进行分类,输入的样本序列记为(xi,yi),xi是样本的多维特征,yi是样本真实类别标签,模型对xi的预测标签是yi^,通过比较yi和yi^,确定样本i的预测结果是否正确。
3.如权利要求1所述的一种基于分类错误率和一致性预测的概念漂移检测方法,其特征在于,基于分类错误率的突变型概念漂移检测的过程为:
标记分类错误的样本,并计算此时的分类错误率err和标准偏差s;
对于样本i,分类错误率erri为该时刻分类结果中分类错误的概率,对应的标准偏差为si=sqrt(erri(1-erri)/i);若分类错误率和标准偏差之和大于漂移阈值,则表示该模型发生概念漂移,若小于漂移阈值,则继续下一个样本的分类;若测试数据集中最后一个样本的分类错误率和标准偏差之和小于漂移阈值,则未发生突变型概念漂移,并进一步执行基于一致性预测器的检测;
其中,所述漂移阈值的计算过程,将分类错误率err的最小值errmin和标准偏差s的最小值smin初始化为1,样本数据依次输入分类模型进行分类,并计算分类错误率erri和标准偏差si,若erri<errmin,则用erri替换errmin;若si<smin,则用si替换smin,直到样本数据全部完成分类,得到分类错误率最小值errmin和标准偏差最小值smin;将置信水平设为99%,漂移阈值为errmin+3smin。
4.如权利要求1所述的一种基于分类错误率和一...
【专利技术属性】
技术研发人员:王勇,彭金雪,张继,刘振岩,薛静锋,林珂卉,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。