基于多元数据的重要网络攻击团伙识别方法技术

技术编号:33948892 阅读:15 留言:0更新日期:2022-06-29 21:58
本发明专利技术为一种基于多元数据的重要网络攻击团伙识别方法,主要步骤包括:数据清洗和特征筛选,组建特征计算数据集,筛选出评分参考项,赋予分数权重及对进行团伙评判。本发明专利技术通过专家经验组建特征计算数据集,并以此数据集为基础计算各个特征的皮尔森系数并结合距离相关系数,将关联性比较大的特征作为重要团伙评判特征,并将筛选出来的特征人工赋权使其更适应实际情况。本发明专利技术对不同类型特征采用的碰撞、数量统计和模板匹配三种统计法,同时引用了统计特征工程和人工赋权结合的方法,既保证了所选特征与结果的相关性,同时又可以根据实际情况对权重进行调整,进而完成对重要团伙的识别。其解决了本领域面向重要团伙自动化识别的关键技术指标。的关键技术指标。的关键技术指标。

【技术实现步骤摘要】
基于多元数据的重要网络攻击团伙识别方法


[0001]本专利技术涉及一种网络安全领域,特别是涉及一种基于多元数据的重要 网络攻击团伙识别方法。

技术介绍

[0002]目前基于大量安全事件数据可对安全事件进行粗轮廓统计分析,也可 对事件开展一定的追踪溯源。随着网络攻击和防御之间对抗的加深和演 变,网络攻击行为向着分布化、规模化等趋势发展。与其他大量由单个攻 击资源发起的偶发性攻击事件不同,团伙攻击是通过相对独占的规模化攻 击资源,基于一定的攻击手法进行规模化攻击的攻击行为,团伙攻击行为 往往带有典型的情报、经济等利益目标,得到尤为特殊的关注,例如APT 攻击组织、黑产团伙即是典型的团伙性攻击事件的发起者。
[0003]网络攻击团伙作为一个有规模的组织,给当今的互联网安全带来了巨 大的威胁,任何连接互联网的设备都可以作为资源被网络攻击团伙侵占, 包括笔记本电脑、台式电脑、智能手机、DVR播放器、无线路由器以及其他 物联网(IoT)设备。整个攻击网络由命令和控制(C&C)服务器控制。C &C服务器是受黑客或黑客组织控制的计算机,可以向RAT远程控制网络中 的僵尸程序发送命令,并且还可以接收僵尸程序收集的信息。
[0004]RAT远程控制网络作为一种常见且有效的网络攻击手段,给当今的互联 网安全带来了巨大的威胁。任何连接互联网的设备都可以添加到RAT远程 控制网络中,包括笔记本电脑、台式电脑、智能手机、DVR播放器、无线路 由器以及其他物联网(IoT)设备。RAT远程控制网络由命令和控制(C&C) 服务器控制。C&C服务器是受黑客或黑客组织控制的计算机,可以向RAT 远程控制网络中的僵尸程序发送命令,并且还可以接收僵尸程序收集的信 息。
[0005]基于大数据技术在海量数据的挖掘下,通过AI算法成功识别到了网络 攻击团伙,但是由于数据基数大,被发现的团伙数量过多,所以需要对这 些被发现的团伙进行评判,找到其中比较重要的团伙,然而,针对数量如 此巨大的团伙已经无法通过安全专家逐个人工评判,导致了大量的信息浪 费,同时也降低了情报的时效性,
[0006]有鉴于上述现有的技术存在的缺陷,本专利技术人经过不断的研究、设计, 并经反复试作及改进后,终于创设出确具实用价值的本专利技术。

技术实现思路

[0007]本专利技术的主要目的在于,克服现有的技术存在的缺陷,而提供一种新 的基于多元数据的重要网络攻击团伙识别方法,所要解决的技术问题是使 其基于多维度数据开发出自动化的重要团伙识别方法,非常适于实用。
[0008]本专利技术的另一目的在于,提供一种新的基于多元数据的重要网络攻击 团伙识别,所要解决的技术问题是使其结合机器学习统计方法和人工授权 保证了识别规则的合理性,从而更加适于实用。
[0009]本专利技术的还一目的在于,提供一种新的基于多元数据的重要网络攻击 团伙识别
方法,解决了本领域重要团伙定义及重要性数字化、抽象化,以 及面向重要团伙自动化识别的关键技术指标,从而更加适于实用。
[0010]本专利技术的再一目的在于,提供一种新的一种新的基于多元数据的重要 网络攻击团伙识别方法的重要网络攻击团伙发现流程,所要解决的技术问 题是使其可以衔接在团伙聚类计算流程之后以用来完善整条计算链路,从 而更加适于实用,且具有产业上的利用价值。
[0011]本专利技术的构思是根据一个网络攻击团伙,通常拥有多种攻击资源,且 这些攻击资源分布广泛,数量巨大,是攻击者所使用的必须资源。所以必 须结合大数据相关技术并应用统计学方法,对团伙信息进行统计分析,为 此,本专利技术对不同类型特征采用的碰撞、数量统计和模板匹配三种统计法, 同时因为受短期内机器学习的局限性,本专利技术引用了统计特征工程和人工 赋权结合的方法,既保证了所选特征与结果的相关性,同时又可以根据实 际情况对权重进行调整,进而完成对重要团伙的识别。
[0012]本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。依据 本专利技术提出的一种基于多元数据的重要网络攻击团伙识别方法,其具体步 骤如下:
[0013]步骤1:数据清洗和特征筛选
[0014]删掉原始数据中的无用字段避免内存浪费,同时保证各个特征的相关 性和有效性;
[0015]步骤2:组建特征计算数据集
[0016]通过大量专家经验组建特征计算数据集;
[0017]步骤3:筛选出评分参考项
[0018]根据特征计算数据集通过过滤法即JFilter计算各个特征的皮尔森系 数和距离相关系数即Distance Correlation筛选出和团伙重要性相关度高 的特征作为之后的评分参考项;
[0019]步骤4:赋予分数权重
[0020]针对筛选出和团伙重要性相关度高的特征赋予分数权重,其中部分权 重通过json格式写入配置文件;
[0021]步骤5:对进行团伙评判
[0022]采用归一化统计方法对每一个团伙进行评判;计算完所有子项评分之 后,将所有子项合并得出总分,之后按照总分高低进行排名,并且给出多 个等级的评级。
[0023]进一步,所述的过滤法即Filter计算各个特征的皮尔森系数,皮尔森 系数计算方法如下:
[0024][0025]其中:
[0026]r为皮尔森相关系数
[0027]X为自变量
[0028]Y为因变量
[0029]进一步,所述的距离相关系数即Distance Correlation进行辅助筛选, 距离相关
系数计算方法如下:
[0030][0031]其中:
[0032]dCor(X,Y):为距离相关系数;
[0033]Cov是协方差;
[0034]Var是方差。
[0035]进一步,所述的归一化统计方法包括数据碰撞,数量统计和匹配固定 项目。
[0036]进一步,所述的数据碰撞是将目标IP和外部数据进行碰撞匹配,得出 命中数量之后将各个团伙之间的命中数量进行归一化计算,并应用x^(1/3) 映射函数以拉近分值,避免特大团伙导致的分数割裂。
[0037]进一步,所述的数量统计是计算团伙重要资产数量,再次进行归一化 计算并且应用x^(1/3)映射函数以拉近分值避免特大团伙导致的分数割 裂。
[0038]进一步,所述的匹配固定项目是根据团伙某些特征去匹配固定分 值,这些参数所对应的固定分值会写在配置文件内,以便能随时扩展。
[0039]本专利技术与现有技术相比具有明显的优点和有益效果。其至少具有下列 优点:
[0040]1、本专利技术对输入的多元原始数据进行清洗和筛选,删掉了原始数据中 的无用字段避免内存浪费,同时保证各个特征的相关性和有效性。
[0041]2、本专利技术在采用计算皮尔森系数同时引入距离相关系数(DistanceCorrelation)进行辅助筛选,解决了传统的皮尔森系数只对线性关系 敏感,无法评价非线性特征对结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多元数据的重要网络攻击团伙识别方法,其特征在于:具体步骤如下:步骤1:数据清洗和特征筛选删掉原始数据中的无用字段避免内存浪费,同时保证各个特征的相关性和有效性;步骤2:组建特征计算数据集通过大量专家经验组建特征计算数据集;步骤3:筛选出评分参考项根据特征计算数据集通过过滤法即JFilter计算各个特征的皮尔森系数和距离相关系数即Distance Correlation筛选出和团伙重要性相关度高的特征作为之后的评分参考项;步骤4:赋予分数权重针对筛选出和团伙重要性相关度高的特征赋予分数权重,其中部分权重通过json格式写入配置文件;步骤5:对进行团伙评判采用归一化统计方法对每一个团伙进行评判;计算完所有子项评分之后,将所有子项合并得出总分,之后按照总分高低进行排名,并且给出多个等级的评级。2.根据权利要求1所述的一种基于多元数据的重要网络攻击团伙识别方法,其特征在于:所述的过滤法即Filter计算各个特征的皮尔森系数,皮尔森系数计算方法如下:其中:r为皮尔森相关系数X为自变量Y为因变量。3.根据权利要求1所述的一种基于多元数据的重要网络攻击团伙识别方法,其特征在于...

【专利技术属性】
技术研发人员:饶毓肖崇蕙吕利锋赵德润滑亚康吴铁军
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1