基于无监督学习的攻击者画像方法及系统技术方案

技术编号:19638384 阅读:19 留言:0更新日期:2018-12-01 18:41
本发明专利技术涉及一种基于无监督学习的攻击者画像方法及系统,该方法包括步骤:对获取的报警数据进行预处理,使来源不同的报警数据具有相同的格式及维度;对预处理之后的报警数据进行聚类分析,得到聚类后的数据集;将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;对数据进行归类,得到攻击者的画像集合。通过本发明专利技术方法及系统得到的攻击者画像的特征信息更全面,且更准确,具有重用性。

【技术实现步骤摘要】
基于无监督学习的攻击者画像方法及系统
本专利技术涉及信息安全
,特别涉及一种基于无监督学习的攻击者画像方法及系统。
技术介绍
网络安全和信息化是事关国家安全和国家发展、事关广大人民群众工作生活的重大战略问题,随着检测技术的不断提升,所能提供的攻击信息越来越多。在加强攻击检测技术的同时,其中网络溯源是安全态势感知中重要的一环。其中,溯源的一个重要内容就是希望掌握攻击者的特征,并由此掌握其攻击偏好,攻击意图等。申请号为201711392050.9的中国专利申请公开了一种攻击者画像方法,其是利用PDB文件的调试信息找出攻击者的IP、所属国家等信息,但网络环境中IP地址等信息容易伪造,使得无法最终得到准确的结果,同时给出的攻击者自身的信息较为单一(往往只有一个IP),而且信息不具备重用性,如果之后再出现类似或者相同的事件,必须重头来追踪一次。
技术实现思路
本专利技术的目的在于改善现有技术中所存在的上述不足,提供一种基于无监督学习的攻击者画像方法及系统。为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:一方面,本专利技术实施例提供了一种基于无监督学习的攻击者画像方法,包括以下步骤:步骤1,获取报警数据信息;步骤2,对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;步骤3,对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;步骤4,将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;步骤5,对步骤4中得到的数据进行整理,得到攻击者的画像集合。另一方面,本专利技术实施例同时提供了一种基于无监督学习的攻击者画像系统,包括以下模块:数据收集模块,用于获取报警数据信息;数据预处理模块,用于对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;数据分析模块,用于对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;数据扩充模块,用于将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;画像形成模块,用于对数据扩充模块输出的数据进行归类,得到攻击者的画像集合。再一方面,本专利技术实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本专利技术实施例中所述方法中的操作。再一方面,本专利技术实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本专利技术实施例中所述方法中的步骤。与现有技术相比,本专利技术的有益效果:区别于现有只分析出IP地址的方式,本专利技术方法及系统从用户行为习惯、目标偏好等方面,构建一个全面多维的攻击者及群体的画像,形成的经验集可以重用,并可以不断扩充、调整。通过多次无监督学习和调整后形成的经验集,可用于对攻击者及群体的锁定和对攻击行为、攻击目标的预测中。该方法和系统可运用于网络安全中的查找攻击者、攻击行为预测等方面,同时也可以运用于城市公共安全、智能安防、工控安全,智能汽车安全等多领域。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术较佳实施例提供的基于无监督学习的攻击者画像方法的流程图。图2为实施例中所述攻击者群体示意图。图3为实施例中所述攻击者画像方法中聚类步骤的流程示意图。图4为本专利技术较佳实施例提供的基于无监督学习的攻击者画像系统的功能模块图。图5是本专利技术实施例中所述电子设备的组成结构方框示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例中提供了一种基于无监督学习的攻击者画像方法,所谓攻击者画像是指通过网络攻击者在实施犯罪过程中留下的线索,获取与攻击者自身相关的信息。请参阅图1,上述基于无监督学习的攻击者画像方法包括以下步骤:步骤1,获取报警数据信。该报警数据信息可以是来源于各种安全设备的报警数据信息,例如来自入侵检测系统的报警数据信息,来源于防火墙的报警数据信息,来自于系统日志的报警数据信息,等等。报警数据信息是指各种安全设备按照各自安全规则在检测到出现违背安全规则的威胁时,产生的报警结果,提示威胁的出现。不同安全设备的报警数据信息格式不同,同一种类型的安全设备的报警数据信息格式也可能略有不同。例如:入侵检测系统snort可以提供文本格式、Libpcap格式和数据库三种报警形式,报警数据信息包括攻击事件发生的时间,snort提示信息(报警分类和优先级),源IP地址,源端口号,目标IP地址,目标端口号;防火墙常用日志格式为:PRI号,发生时间,严重程度,具体事件描述ID,源IP,目标IP,源端口,目标端口持续时间,字节数,涉及协议;系统安全日志常用格式为:操作时间,操作人员账户名,目标系统编码,源IP,客户端计算机名称,源MAC地址,操作名称、操作结果、失败原因。步骤2,对获取的报警数据信息进行预处理,使来自各种安全设备的报警数据信息标准化,标准化包括格式统一、标准化处理及维度调整,使来源不同的报警数据信息具有相同的格式及维度。容易理解的,若报警数据信息来自于同一种类型的安全设备,因为格式是相同的,因此无需进行格式统一,若报警数据信息来自于不同类型的安全设备,由于不同类型安全设备的数据格式不一致,因此需要进行格式统一,以使得预处理后的报警数据信息具有相同的格式。其中,格式统一包括指将不同资源获取的报警数据信息采用相同的存储格式进行存储,例如,统一按照以下格式进行存储:攻击时间,源IP,源端口,攻击名称,攻击类型,目标IP,目标端口。对数据进行标准化处理,是将报警数据信息的属性中较大数据值转换为较小数据值,例如采用0均值标准化(Z-scorestandardization)对数据做规范化。因为在聚类步骤中求相似性时,每个属性都要参与,但有的属性数值过大(例如端口,拆分的IP等),会导致抹杀其他数值较小的元素的属性在整个相似性中的影响,因此需要进行数据值转换,比提高后续聚类步骤的聚类结果的准确性。维度调整指调整各个报警数据信息的维度,选取对报警数据分析有用的属性,用于数据集聚类处理。维度就是指报警数据信息中属性的个数,例如,格式统一后的数据信息格式包括:攻击时间,源IP,源端口,攻击名称,攻击类型,目标IP,目标端口,共7项属性,则其维度为7。一般地,报警数据信息的维度都比较大,而维度调整的目的是便于后续的聚类分析,聚类分析时只针对重要的或者是用户感兴趣的、能体现攻击者特征或者偏好的信息进行聚类,如果维度太高会导致计算复杂度增加,本文档来自技高网...

【技术保护点】
1.一种基于无监督学习的攻击者画像方法,其特征在于,包括以下步骤:步骤1,获取报警数据信息;步骤2,对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;步骤3,对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;步骤4,将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;步骤5,对步骤4中得到的数据进行整理,得到攻击者的画像集合。

【技术特征摘要】
1.一种基于无监督学习的攻击者画像方法,其特征在于,包括以下步骤:步骤1,获取报警数据信息;步骤2,对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;步骤3,对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;步骤4,将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;步骤5,对步骤4中得到的数据进行整理,得到攻击者的画像集合。2.根据权利要求1所述的方法,其特征在于,所述步骤2中,对获取的报警数据信息进行预处理,包括:将来自不同资源的报警数据信息采用相同的存储格式进行存储,并进行标准化处理;选取报警数据信息的属性,调整各个报警数据信息的维度,使来自不同资源的报警数据信息维度相同,所述维度指报警数据信息中属性的个数。3.根据权利要求2所述的方法,其特征在于,所述步骤2中还包括:判断报警数据信息中报警事件的主体对象间是否存在从属关系,以及将存在从属关系的主体对象归类于同一群体。4.根据权利要求1所述的方法,其特征在于,所述步骤3中,通过去除数据集中报警数据信息中的孤立结点,且采用自适应调整聚类个数K的方式进行聚类分析。5.根据权利要求4所述的方法,其特征在于,所述步骤3具体包括:步骤31,针对于数据集中的每个报警数据信息,计算出每个结点i与剩余结点的距离和Si及距离均和H,若Si>H,则将结点i作为孤立结点予以去除,得到新的数据集;其中,n为结点的个数,xij为当前结点,xji为剩余结点,d表示一个结点的维度;步骤32,设置初始的K值,针对于新的数据集,随机选取K个数据信息作为初始聚类中心;步骤33,计算当前数据集的类间分散度Dispk和类内聚合度Aggrk,并得到初始E值Ek;其中,dij=||vi-vj||,vi、vj分别表示第i个簇的聚类中心和第j簇的聚类中心,ci表示第i个簇中数据信息个数,x表示第i个簇中各个数据信息;步骤34,求出当前数据集中两个距离最近的聚类子集X,Y;步骤35,合并距离最近的两个聚类子集,得到新的k-1个聚类中心,计算此时的Dispk-1和Aggrk-1,Ek-1;步骤36,判断...

【专利技术属性】
技术研发人员:王祖俪李飞王娟吴春旺赵军
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1