System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于引力模型的网络异常数据传输行为聚类识别方法技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于引力模型的网络异常数据传输行为聚类识别方法技术

技术编号:40542672 阅读:8 留言:0更新日期:2024-03-05 18:58
本发明专利技术属于网络空间安全以及数据安全技术领域,涉及一种基于引力模型的网络异常数据传输行为聚类识别方法,包括步骤1,获取网络传输行为特征向量样本集,进行行为类别标注;步骤2,计算未标注行为类别的网络传输行为特征向量与每个行为类别的特征向量集合之间的引力,获得最大引力值;步骤3,若最大引力值超过引力捕获阈值,将未标注行为类别的网络传输行为特征向量标注为对应的行为类别,加入至对应的行为类别特征向量集合;步骤4,执行步骤2至步骤3对其他未标注行为类别的网络传输行为特征向量进行行为类别标注。该方法可以在网络流量被加密的情况下,判断网络传输行为是否存在异常,从而完成对加密流量的恶意行为识别和发现。

【技术实现步骤摘要】

本专利技术属于网络空间安全以及数据安全,具体涉及一种基于引力模型的网络异常数据传输行为聚类识别方法


技术介绍

1、近年来,对网络中的数据安全威胁进行有效的识别和检测,分析和挖掘网络流量中的异常数据传输行为成为当前网络空间安全方向的重要研究热点。与此同时,https、vpn等数据加密技术也在日益普及。网络中的流量逐步采用加密技术提升传输过程中安全性的比例越来越高。根据netmarketshare的数据统计,2019年10月全球加密web流量的比例就已经超过90%。除网页外,隐私、版权和安全保护的需求使得视频、音乐、即时通信(instantmessage,im)、文件传输、电子游戏、远程访问等业务在网络中均开始采用加密传输。除了越来越多的网络流量采用了加密技术以外,各种复杂的新型网络协议(加密协议和应用协议)也在逐渐广泛应用,tls-1.3、quic、dtls、dot等新型加密协议已经在各种数据传输过程中开始推广和试用,而mmtls、vmess、shadowsocks等更是采用了半公开协议或私有协议,对其开展深入分析和特征挖掘的难度进一步加大。

2、在这种网络流量背景下,恶意软件和应用通常都采用加密技术对窃取到的敏感数据和隐私信息进行加密后再传输,试图通过随机化和数据混淆技术,隐藏网络数据和行为特征,提升网络流量协议检测的难度。当前的研究结果表明,常用的深度报文检测能很好的针对数据类型进行检测,但针对加密后的数据流量,深度报文检测方法的检测效果就会大打折扣。而在实际的网络环境中,各种网络数据机密技术使得异常数据传输行为混合在正常网络流量时,网络流量识别特征变得复杂化、多样化,难以通过简单的分类模型对网络异常数据传输行为特征进行刻画,对其异常识别提出了新的要求和挑战。


技术实现思路

1、专利技术目的:本专利技术提供一种基于引力模型的网络异常数据传输行为聚类识别方法,其能有效解决当前由于流量加密,无法通过特征匹配等方式实现对异常数据传输流量进行识别的问题,并且可以确保体量较少的异常数据传输样本也能得到扩展,避免出现样本不均衡性带来的分类不准确的问题。

2、为了解决上述技术问题,本专利技术公开了一种基于引力模型的网络异常数据传输行为聚类识别方法,包括:

3、步骤1,获取网络传输行为特征向量样本集,对所述样本集中的部分网络传输行为特征向量进行行为类别标注,获得多个行为类别的特征向量集合,所述多个行为类别包括网络异常数据传输行为类别。

4、步骤2,计算所述样本集中未标注行为类别的网络传输行为特征向量与每个行为类别的特征向量集合之间的引力值,获得最大引力值和对应的行为类别。

5、步骤3,若所述最大引力值超过引力捕获阈值,则将所述未标注行为类别的网络传输行为特征向量标注为对应的行为类别,加入至对应的行为类别特征向量集合中。

6、步骤4,重复执行步骤2至步骤3对其他未标注行为类别的网络传输行为特征向量进行行为类别标注。

7、进一步地,步骤1中所述网络传输行为特征向量是指从一次完整网络数据传输会话过程中抽取出的数学特征所组成的向量,包括会话持续时间、正向报文数量、后向报文数量、正向报文平均大小和反向报文平均大小等。

8、进一步地,步骤2包括:参考万有引力定律公式,对未标注行为类别的网络传输行为特征向量与每个行为类别的特征向量集合之间的引力值进行计算,计算公式如下。

9、

10、上式中的表示第 j个未标注行为类别的网络传输行为特征向量与类型为 k的特征向量集合 c k之间的引力,1 ≤ k ≤ k, k表示网络传输行为类别的数量;1 ≤ j ≤ n, n表示尚未标注行为类别的网络传输行为特征向量的数量; m i表示类型为 k的特征向量集合 c k中的第 i个特征向量的质量,1 ≤ i ≤| c k|,| c k|表示类型为 k的特征向量集合 c k中特征向量的数量; r ij表示类型为 k的特征向量集合 c k中的第 i个特征向量与第 j个特征向量之间的距离。

11、步骤2构建了完整的引力模型对不同网络传输行为特征向量之间的引力进行计算,同时兼顾了网络传输行为特征向量的质量和特征向量之间的距离,增加了可靠性。在计算完第 j个未标注行为类别的网络传输行为特征向量与所有行为类别的特征向量集合之间的引力后,从中选择对第 j个未标注行为类别的网络传输行为特征向量具有最大引力值的行为类别。

12、进一步地,在对两个网络传输行为特征向量之间的距离进行计算时主要借鉴余弦相似度来完成,步骤2中类型为 k的特征向量集合 c k中的第 i个特征向量与第 j个未标注行为类别的网络传输行为特征向量之间的距离 r ij计算公式如下。

13、

14、在上式中, i表示类型为 k的特征向量集合 c k中的第 i个网络传输行为特征向量值, j表示第 j个未标注行为类别的网络传输行为特征向量的特征向量值; i l表示第 i个网络传输行为特征向量的第 l项特征值, j l表示第 j个网络传输行为特征向量的第 l项特征值, 本文档来自技高网...

【技术保护点】

1.一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤1中所述网络传输行为特征向量是指从一次完整网络数据传输会话过程中抽取出的数学特征所组成的向量,包括会话持续时间、正向报文数量、后向报文数量、正向报文平均大小和反向报文平均大小。

3.根据权利要求2所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤2包括:参考万有引力定律公式,对未标注行为类别的网络传输行为特征向量与每个行为类别的特征向量集合之间的引力值进行计算,计算公式如下:

4.根据权利要求3所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤2中类型为k的特征向量集合Ck中的第i个特征向量与第j个未标注行为类别的网络传输行为特征向量之间的距离rij计算公式如下:

5.根据权利要求4所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤3中在初始条件下,将引力捕获阈值Gt设置为所有计算得到的引力值的均值,计算公式如下所示:

6.根据权利要求5所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,将步骤1中标注了行为类别的网络传输行为特征向量的质量设置为1。

7.根据权利要求6所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤3还包括:计算新标注了行为类别的网络传输行为特征向量的质量。

8.根据权利要求7所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤3中新标注了行为类别的网络传输行为特征向量的质量根据引力的均值来进行计算,被划归到某种行为类型k的网络传输行为特征向量j的质量计算公式如下:

9.根据权利要求8所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,还包括步骤5,若已经标注行为类别的网络传输行为特征向量比例未超过预设占比阈值,则更新引力捕获阈值,重复执行步骤2至步骤4对未标注行为类别的网络传输行为特征向量进行行为类别标注。

10.根据权利要求9所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤5中对引力捕获阈值Gt进行更新,更新的计算公式如下所示:

...

【技术特征摘要】

1.一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤1中所述网络传输行为特征向量是指从一次完整网络数据传输会话过程中抽取出的数学特征所组成的向量,包括会话持续时间、正向报文数量、后向报文数量、正向报文平均大小和反向报文平均大小。

3.根据权利要求2所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤2包括:参考万有引力定律公式,对未标注行为类别的网络传输行为特征向量与每个行为类别的特征向量集合之间的引力值进行计算,计算公式如下:

4.根据权利要求3所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤2中类型为k的特征向量集合ck中的第i个特征向量与第j个未标注行为类别的网络传输行为特征向量之间的距离rij计算公式如下:

5.根据权利要求4所述的一种基于引力模型的网络异常数据传输行为聚类识别方法,其特征在于,步骤3中在初始条件下,将引力捕获阈值gt设置为所有计算得到的引力值的均值,计算公式如下所示:<...

【专利技术属性】
技术研发人员:蔡冰程光吴琳罗雅琼仇星柯家龙袁艺
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1