【技术实现步骤摘要】
流量的处理方法及装置、设备、存储介质
[0001]本申请涉及网络安全
,尤其涉及一种流量的处理方法及装置、设备、存储介质。
技术介绍
[0002]随着互联网的普及和网络技术的快速发展,网络流量呈现爆炸式增长,网络流量中包含着设备之间的交互信息,因此对网络流量的分析,是网络带宽规划、网络入侵检测与防御、物联网(Internet of Things,IOT)资产识别以及恶意流量检测等任务的重要前提,但网络流量的加密,内容随机性等特性也使分析其面临着巨大的挑战。相关技术中,采用无监督的流量聚类方法对网络流量进行聚类时,因为流量的内容随着设备活动状态发生变化,所以无法有很好的聚类效果。因此,相关技术存在对网络流量聚类不准确的问题。
技术实现思路
[0003]本申请主要提供一种流量的处理方法及装置、设备、存储介质,能够提高对流量的聚类精度。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供了一种流量的处理方法,包括:
[0006]获取至少两个待检测流量;每个所述待检测流量携带多个网络载荷数据;
[0007]针对每个所述待检测流量,对多个所述网络载荷数据进行排序重组得到载荷数据集合,并提取所述载荷数据集合的第一语义特征;
[0008]对所述第一语义特征进行降维聚类处理,得到每个所述待检测流量对应的第二语义特征;
[0009]基于各个所述待检测流量分别对应的所述第二语义特征,对至少两个所述待检测流量进行聚类得到多个簇;其中,每个簇中
【技术保护点】
【技术特征摘要】
1.一种流量的处理方法,其特征在于,包括:获取至少两个待检测流量;每个所述待检测流量携带多个网络载荷数据;针对每个所述待检测流量,对多个所述网络载荷数据进行排序重组得到载荷数据集合,并提取所述载荷数据集合的第一语义特征;对所述第一语义特征进行降维聚类处理,得到每个所述待检测流量对应的第二语义特征;基于各个所述待检测流量分别对应的所述第二语义特征,对至少两个所述待检测流量进行聚类得到多个簇;其中,每个簇中包括:至少一个所述待检测流量。2.根据权利要求1所述的流量的处理方法,其特征在于,所述第一语义特征包括:多个第一特征向量;所述第二语义特征包括:N个第二特征向量;N为大于或者等于1的整数;所述对所述第一语义特征进行降维聚类处理,得到每个所述待检测流量对应的第二语义特征,包括:利用预设聚类算法处理多个所述第一特征向量,得到N个向量集合;每个向量集合包括:M个第一特征向量;M为大于或者等于1的整数;求每个所述向量集合的M个所述第一特征向量的均值,得到每个所述向量集合对应的所述第二特征向量,进而得到N个所述第二特征向量。3.根据权利要求2所述的流量的处理方法,其特征在于,所述至少两个待检测流量包括:K个待检测流量;K为大于或者等于2的整数;所述基于各个所述待检测流量分别对应的所述第二语义特征,对至少两个所述待检测流量进行聚类得到多个簇,包括:对K个所述待检测流量进行第一次遍历,基于每个所述待检测流量对应的N个所述第二特征向量,在K个所述待检测流量中确定出第一簇;所述第一簇包括:T个所述待检测流量;T个所述待检测流量中任意两组待检测流量之间的相似度大于相似度阈值,每组待检测流量包括:至少一个所述待检测流量;T为大于1小于K的整数;对其他待检测流量进行第二次遍历,得到第二次遍历完成的第二簇,直至多次遍历完成将K个所述待检测流量聚类得到所述多个簇;其中,其他待检测流量为K个所述待检测流量中除所述第一簇的T个所述待检测流量之外的所述待检测流量。4.根据权利要求3所述的流量的处理方法,其特征在于,所述对K个所述待检测流量进行第一次遍历,基于每个所述待检测流量对应的N个所述第二特征向量,在K个所述待检测流量中确定出第一簇,包括:基于第i待检测流量与第i+1待检测流量分别对应的N个所述第二特征向量,计算第i待检测流量与第i+1待检测流量之间的第一相似度;i为大于或者等于1且小于K的整数;若所述第一相似度大于等于相似度阈值,则将所述第i待检测流量与所述第i+1待检测流量划分至第一簇;计算第i待检测流量与第i+1待检测流量的第二特征向量集,与第i+2待检测流量之间的第二相似度;基于所述第二相似度对所述第i+2待检测流量进行划分;直至基于第K待检测流量与最终第二特征向量集之间的最终相似度,对第K待检测流量划分完成,进而确定出第一簇;所述最终第二特征向量集为遍历至第K待检测流量时,所述
第一簇中当前包括的各个所述待检测流量的所述第二特征向量之和。5.根据权利要求4所述的流量的处理方法,其特征在于,所述基于第i待检测流量与第i+1待检测流量分别对应的N个所述第二特征向量,计算第i待检测流量与第i+1待检测流量之间的第一相似度,包括:计算所述第i待检测流量中每个所述第二特征向量与所述第i+1待检测流量中的每个所述第二特征向量的第一相似距离;基于各个所述第一相似距离计算第一中间相似度;计算所述第i+1待检测流量中每个所述第二特征向量与所述第i待检测流量中的每个第二特征向量的第二相似距离;基于各个所述第二相似距离计算第二中间相似度;将所述第一中间相似度与所述第二中间相似度的平均值,确定为所述第一相似度。6.根据权利要求5所述的流量的处理方法,其特征在于,所述基于各个所述第一相似距离计算第一中间相似度,包括:遍历第i待检测流量中的每个所述第二特征向量的各个所述第一相似距离,若第X个所述第二特征向量对应的各个所述第一相似距离中存在不小于相似距离阈值的第一相似距离,则确定第X个所述第二特征向量存在于所述第i+1待检测流量中,直至所述第i待检测流量中的每个所述第二特征向量均遍历完成,得到存在于所述第i+1个待检测流量中的Y个所述第二特征向量;X为大于或者等于1且小于等于N的整数;Y为大于或者等于1且小于等于N的整数;求Y与N的比值,得到所述第一中间相似度。7.根据权利要求4所述的流量的处理方法,其特征在于,所述基于所述第二相似度对所述第i+2待...
【专利技术属性】
技术研发人员:黄子恒,张星,葛继声,李春辉,关雪松,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。