一种IP组相似度计算方法技术

技术编号:17165036 阅读:20 留言:0更新日期:2018-02-01 22:31
本发明专利技术涉及一种IP组相似度计算方法,取任一IP,得到IP的本身字段属性、地域信息属性、告警时间属性和告警类型属性的高维特征向量,加权组合得到当前IP的组合特征向量,进而得到所有待分组IP的组合特征向量,聚类得到IP组,以均方根误差RMSE衡量每个IP组的相似度。本发明专利技术的方法考量了IP的多维属性,结合IP本身的字段、地域特征及行为模式,得到IP组相似度更有说服力,精准度更高。

A method for calculating the similarity of IP group

The invention relates to a calculation method of IP group similarity, take any IP, high dimensional feature vector field itself attribute, geographical information attribute, the alarm time and alarm attribute type attribute to get IP, a combined feature vector of current IP weighted combination, and then get all IP components combined feature vector clustering, IP group similarity with root mean square error RMSE measure of each group IP. The method of the invention considers the multi-dimensional attributes of IP, and combines the field, regional characteristics and behavior patterns of IP to get the similarity of IP group, which is more convincing and accurate.

【技术实现步骤摘要】
一种IP组相似度计算方法
本专利技术涉及特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的
,特别涉及一种网络安全领域的、基于高维映射和加权K-Means聚类的IP组相似度计算方法。
技术介绍
IP是InternetProtocol(互联网协议)的外语缩写,在互联网中,它是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在互联网上进行通信时应当遵守的规则。任何厂家生产的计算机系统,只要遵守IP协议就可以在互联网上互连互通。通过计算IP间的相似度,可以使分析视角从单个IP转到整个IP组,从而为IP行为分析和规律发现提供了便利,进而可以更好地保障网络安全。在现有技术中,IP相似度计算方法是直接根据IP(一般表示为A.B.C.D)本身的4个字段信息,采用聚类方法如DBSCAN、K-Medoids等进行聚类,然后计算IP组相似度,这些聚类方法只考虑了单一的IP字段信息,没有利用IP的其他属性及行为特征,所以聚类效果不尽如人意。
技术实现思路
本专利技术的主要目的在于克服现有技术中的不足,提供一种优化的IP组相似度计算方法。本专利技术的技术方案为,一种IP组相似度计算方法,所述方法包括以下步骤:步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4;步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100];步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步;步骤4:利用K-Means算法,将所有待分组IP进行聚类,得到K个IP组,其中,β为参数,β∈[1,50];步骤5:以均方根误差RMSE衡量每个IP组的相似度。优选地,所述得到IP的本身字段属性的高维特征向量包括以下步骤:步骤1.1.1:令所述IP为标准格式A.B.C.D,其中,A、B、C、D为字段,A、B、C、D∈[0,255];步骤1.1.2:所述IP的字段映射到高维空间的高维特征向量为V1=(A,B,C,D);步骤1.1.3:归一化所得向量,得到步骤1.1.4:以V1'代替V1。优选地,所述得到IP的地域信息属性的高维特征向量包括以下步骤:步骤1.2.1:取所述IP的经纬度信息,经度longitude∈[-180°,180°],纬度latitude∈[-90°,90°],其中,东经为正,西经为负,北纬为正,南纬为负;步骤1.2.2:所述IP的地域信息映射到高维空间的高维特征向量为V2=(longitude,latitude);步骤1.2.3:归一化所得向量,得到步骤1.2.4:以V2'代替V2。优选地,所述得到IP的告警时间属性的高维特征向量包括以下步骤:步骤1.3.1:获得在T分钟时间内,对第1分钟至第T分钟的每分钟的告警次数;步骤1.3.2:所述IP的告警时间属性映射到高维空间的高维特征向量为V3=(c1,…,ci,…,cT),其中,ci表示第i分钟各种安全设备产生告警的次数总和,0<i≤T,i为整数。优选地,所述得到IP的告警类型属性的高维特征向量包括以下步骤:步骤1.4.1:令所有安全设备对IP进行告警的类别为N类;步骤1.4.2:获得在T分钟时间内,第j类告警的次数总和nj,得到IP的告警时间属性映射到高维空间的高维特征向量V4=(n1,…,nj,…,nN),0<j≤N,j为整数。优选地,所述步骤4中,聚类采用欧氏距离进行距离度量。优选地,所述步骤5中,以均方根误差RMSE衡量每个IP组的相似度包括以下步骤:步骤5.1:令第k个IP组的聚类中心为Vk,mean,共有Nk个IP的组合特征向量,集合为X(k);步骤5.2:第k个IP组的RMSE为优选地,所述步骤5.2中,RMSE越小,IP组相似度越大,RMSE越大,IP组相似度越小。本专利技术通过对IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性进行高维映射,得到属性对应的高维特征向量,对得到的高维特征向量进行加权,得到IP在高维空间的组合特征向量,然后利用K-Means对不同的IP进行聚类形成IP组,以均方根误差衡量每个IP组的相似度。本专利技术的方法考量了IP的多维属性,结合IP本身的字段、地域特征及行为模式,得到IP组相似度更有说服力,精准度更高。具体实施方式首先需要说明的是,本专利技术是计算机技术在信息安全
的一种应用。在本专利技术的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本专利技术的实现原理和专利技术目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本专利技术,凡本专利技术申请文件提及的软件功能模块均属此范畴,申请人不再一一列举。本专利技术涉及一种IP组相似度计算方法,所述方法包括以下步骤。步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4。本专利技术中,高维映射是指,将IP同一属性字段取值统一到同一个高维空间,IP之间的距离计算更为简便,用于判断其相似性。所述得到IP的本身字段属性的高维特征向量包括以下步骤:步骤1.1.1:令所述IP为标准格式A.B.C.D,其中,A、B、C、D为字段,A、B、C、D∈[0,255];步骤1.1.2:所述IP的字段映射到高维空间的高维特征向量为V1=(A,B,C,D);步骤1.1.3:归一化所得向量,得到步骤1.1.4:以V1'代替V1。本专利技术中,IP的形式一般为A.B.C.D,每个字段的取值范围为0至255。一般情况下,两个IP间,对应的字段越相近,说明这两个IP越可能是被同一个人或组织所拥有。本专利技术中,举例来说,取一网站,IP为115.239.210.27,则其映射到高维空间的向量V1=(115,239,210,27),其归一化后的向量为本专利技术中,归一化可以简化计算,使得向量成为标量,使物理系统数值的绝对值变成某种相对值关系。所述得到IP的地域信息属性的高维特征向量包括以下步骤:步骤1.2.1:取所述IP的经纬度信息,经度longitude∈[-180°,180°],纬度latitude∈[-90°,90°],其中,东经为正,西经为负,北纬为正,南纬为负;步骤1.2.2:所述IP的地域信息映射到高维空间的高维特征向量为V2=(longitude,latitude);步骤1.2.3:归一化所得向量,得到步骤1.2.4:以V2'代替V2。本专利技术中,采用经纬度信息表达地域信本文档来自技高网
...

【技术保护点】
一种IP组相似度计算方法,其特征在于:所述方法包括以下步骤:步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4;步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100];步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步;步骤4:利用K‑Means算法,将所有待分组IP进行聚类,得到K个IP组,

【技术特征摘要】
1.一种IP组相似度计算方法,其特征在于:所述方法包括以下步骤:步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4;步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100];步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步;步骤4:利用K-Means算法,将所有待分组IP进行聚类,得到K个IP组,其中,β为参数,β∈[1,50];步骤5:以均方根误差RMSE衡量每个IP组的相似度。2.根据权利要求1所述的一种IP组相似度计算方法,其特征在于:所述得到IP的本身字段属性的高维特征向量包括以下步骤:步骤1.1.1:令所述IP为标准格式A.B.C.D,其中,A、B、C、D为字段,A、B、C、D∈[0,255];步骤1.1.2:所述IP的字段映射到高维空间的高维特征向量为V1=(A,B,C,D);步骤1.1.3:归一化所得向量,得到步骤1.1.4:以V1'代替V1。3.根据权利要求1所述的一种IP组相似度计算方法,其特征在于:所述得到IP的地域信息属性的高维特征向量包括以下步骤:步骤1.2.1:取所述IP的经纬度信息,经度longitude∈[-180°,180°],纬度...

【专利技术属性】
技术研发人员:莫凡范渊刘博
申请(专利权)人:杭州安恒信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1