【技术实现步骤摘要】
一种概念漂移检测方法及装置
本申请涉及流量检测领域,具体而言,涉及一种概念漂移检测方法及装置。
技术介绍
随着机器学习的发展,机器学习在异常网络流量检测领域的应用逐渐增加,并且能够准确的检查出流量中存在的新型未知攻击。但是,由于流式数据表现出的概念漂移问题,即数据的样式、含义、内容等会随着时间产生变化,从而使得在采用机器学习的方法进行实时网络异常检测时,会出现准确率随时间下降、误报率不断增加的情况。
技术实现思路
本申请实施例的目的在于提供一种概念漂移检测方法及装置,用以解决基于机器学习的异常检测方法在检测过程中出现的准确率下降和误报率上升的问题。的技术问题。为了实现上述目的,本申请实施例所提供的技术方案如下所示:第一方面,本申请实施例提供一种概念漂移检测方法,包括:获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数 ...
【技术保护点】
1.一种概念漂移检测方法,其特征在于,包括:/n获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;/n对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;/n利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;/n判断所述待检测分词向量与所述参考分词向量是否相似;/n若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量 ...
【技术特征摘要】
1.一种概念漂移检测方法,其特征在于,包括:
获取待检测流量数据以及参考流量数据;其中,所述参考流量数据为异常流量检测模型刚部署后采集的历史流量,所述待检测流量数据与所述参考流量数据的流量条数相同;
对所述待检测流量数据以及所述参考流量数据进行字段提取,得到所述待检测流量数据对应的待检测字段以及所述参考流量数据对应的参考字段;
利用预先创建好的词表将所述待检测字段转换为待检测分词向量,以及利用所述预先创建好的词表将所述参考字段转换为参考分词向量;
判断所述待检测分词向量与所述参考分词向量是否相似;
若所述待检测分词向量与所述参考分词向量不相似,则确定所述待检测流量数据对应的流量存在概念漂移,以对所述异常流量检测模型进行更新。
2.根据权利要求1所述的概念漂移检测方法,其特征在于,所述待检测流量数据为当前时间之前的实时流量。
3.根据权利要求1所述的概念漂移检测方法,其特征在于,所述对所述待检测流量数据以及所述参考流量数据进行字段提取,包括:
根据流量的协议类型对所述待检测流量数据以及所述参考流量数据进行字段提取。
4.根据权利要求1-3任一项所述的概念漂移检测方法,其特征在于,所述判断所述待检测分词向量与所述参考分词向量是否相似,包括:
利用如下公式计算所述待检测分词向量的数据分布与所述参考分词向量的数据分布在希尔伯特空间中的距离:
其中,MMD2[F,p,q]为所述距离,μp为所述参考分词向量的数据分布均值,μq为所述待检测分词向量的数据分布均值,Η为希尔伯特空间,ε为预设距离阈值;
判断所述距离是否大于所述预设距离阈值;其中,所述距离大于所述预设距离阈值表征所述待检测分词向量与所述参考分词向量不相似。
5.根据权利要求1-3任一项所述的概念漂移检测方法,其特征在于,在所述计算所述待检测分词向量与所述参考分词向量的相似度之前,所述方法还包括:
对所述待检测分词向量以及所述参考分词向量进行降维,得到降维后的待检测分词向量以及降维后的参考分词向量。
6.根据权利要求1所述的概念漂移检测方法,其特征在于,在所述获取待检测流量数据以及参考流量数据之前,所述方法还...
【专利技术属性】
技术研发人员:徐小雄,
申请(专利权)人:四川虹微技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。