一种基于Hadoop平台的网络主机漏洞扫描新方法技术

技术编号:35076225 阅读:28 留言:0更新日期:2022-09-28 11:42
本发明专利技术提供了一种基于Hadoop平台的网络主机漏洞扫描新方法,其特征在于,包括一种基于Hadoop平台的一种数据清洗器,能够将大量扫描报文中重复、无效、误报的数据快速清洗掉,最后按照Hbase定义的格式分布式存储在集群中;一种基于MapReduce引擎的任务调度器,能够动态地分配计算资源,将任务分发到空闲的计算资源中,能够增加任务的可靠性,错误的任务会通过任务调度器重新下发至空闲资源;本发明专利技术过清洗器的清洗处理可以大大降低一次任务探测结果堆积的大量重复无效数据,能够充分利用各节点的CPU、内存等硬件资源,充分发挥分布式集群优势、提高扫描速度和容错率。提高扫描速度和容错率。提高扫描速度和容错率。

【技术实现步骤摘要】
一种基于Hadoop平台的网络主机漏洞扫描新方法


[0001]本专利技术涉及网络安全
,具体地说是一种基于Hadoop平台的网络主机漏洞扫描新方法。

技术介绍

[0002]当今互联网产业快速扩张,物联网、企业网、校园网、政务网等快速发展,企业、校园和政府都大力建设自己的网站和内部网络,纷纷联通内部网Intranet与互联网Internet。云政务、云商务、云办公等已成为政府办公、企业发展不可多得的方式。然而当人们在享受网络带来的快捷同时,全球互联网也正接受着它带来的安全问题的挑战,随着国内经济快速发展,互联网全面普及,国内面临的安全问题正日益严峻。具体表现为:各种病毒肆意入侵和破坏计算机网络系统;计算机黑客破坏行为日益猖狂;各类网络基础设施受到网络安全的威胁日益增强;信息系统在预测、反应、防范和恢复能力方面存在许多薄弱环节等。因此,现有的网络安全系统虽然起到了较好的防护作用,但并不能完全解决整个骨干网络系统的安全问题。另外,必须有一套完整有效的备份方案和应急预案。
[0003]随着漏扫扫描系统的诞生,其在网络安全体系中扮演的重要角色越发重要。漏洞扫描系统,其工作原理是当用户通过控制平台发出了扫描命令之后,控制平台即向扫描模块发出相应的扫描请求,扫描模块在接到请求之后立即启动相应的子功能块,对被扫描主机进行扫描,通过对从被扫描主机返回的信息进行分析判断,扫描模块将扫描结果返回给控制平台,再由控制平台最终呈现给用户。
[0004]当前大部分漏洞扫描系统都是单机版或者采用传统关系型数据库的分布式部署,单机版受单机硬件限制,扫描大型网络时会出现扫描速度较慢、硬件成本高、无法扩展等问题,然而基于传统关系型数据库分布式部署的方案虽然可以解决单机版无法扩展的问题,但是传统的方式高可用性差,一个节点的宕机就有可能造成数据的大量丢失,造成检验结果不准确,轻则造成网络中未被发现的漏洞被利用,重则可能造成整个网络系统的瘫痪。

技术实现思路

[0005]本专利技术的目的在于提出一种基于Hadoop平台的网络主机漏洞扫描新方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供以下技术方案:
[0007]一种基于Hadoop平台的一种数据清洗器,将大量扫描报文中重复、无效、误报的数据快速清洗掉,最后按照Hbase定义的格式分布式存储在集群中,具体包括以下步骤:
[0008]S11、根据用户下发的配置,构建MapReduce任务,Hadoop会根据任务量分布式下发多个MapReduce任务,这些任务会对相应的主机发起探测,并接受探测的结果,接受的结果有ip(IP地址)、port(端口)、protocol(端口协议)、application(应用/服务)、version(应用版本)、result_key(各协议访问返回结果key)、result_cache(访问结果缓存);
[0009]S12、提取历史数据的各相关的IP、端口、应用、版本、扫描结果,通过TF

IDF算法提
取出各对应的关键字,并保存到存储集群中;
[0010]S13、缺失值数据的处理,这里使用热卡填充法对缺失值处理,当前某IP、端口、应用对应的扫描结果缺失时,使用Levenshtein距离算法计算出缺失值与历史库中距离最近的关键词,然后将距离最近并排在缺失值前的值作为代替方案;
[0011]S14、异常值数据的处理,基于历史扫描数据,建立了各种端口、服务、版本对应key的探测结果关键字库基线集合,比如key1关键字集合包含value1、value2等关键字集合,属于异常值的直接删除,并且会持续不断更新历史基线集合;
[0012]S15、去重处理,删除掉相同IP、端口、应用、版本所对应的扫描结果,做去重处理;
[0013]S16、入库处理,将清洗完成的数据格式化入库存储集群中。
[0014]所述步骤S12中,所述TF

IDF算法具体包括如下内容:
[0015]设某词数量为A,该段扫描结果单词数量为B,计算TF=A/B,设语料库文档总数C,包含改词的文档数D,计算IDF=log(C/(D+1)),计算每个词的(TF

IDF)值,并降序排序,取排在前面的几个词。
[0016]所述步骤S13中,所述Levenshtein距离算法具体包括如下内容:
[0017]设A单词各字母为A1、A2、A3至AN,B单词各字母为B1、B2、B3至BN,构造矩阵[Ai,Bj],A[1

i]修改到B[1

j]所需操作数为op1+1,删掉字符A[i]的操作数op2+1,A[i]A[i]替换成A[i

]=B[j]的操作数op3+1,字符串A[1

i]修改成字符串B[1

j]所需操作数为min{op1+1,op2+1,op3+1(ai≠bi)},选择操作数最小的补充缺失值。
[0018]一种基于MapReduce引擎的任务调度器,能够动态地分配计算资源,将任务分发到空闲的计算资源中,能够增加任务的可靠性,错误的任务会通过任务调度器重新下发至空闲资源,具体包括以下步骤:
[0019]S21、基于MapReduce计算引擎,读取配置库的任务列表,获取各节点计算资源,包括cpu数量、内存数量;
[0020]S22、根据上述步骤S13中IP总数量(numIps)、各节点剩余cpu数量(c1、c2、c3)、各节点内存大小(m1、m2、m3),根据公式计算需要分割的IP细粒度,公式为:numIps/(a*(c1+c2+c3)+b*(m1+m2+m3)),其中a,b为cpu与内存的权重系数,本文中该计算方法称为IP细粒度均衡算法;
[0021]S23、计算IP细粒度后,再根据DRF资源分配算法,依次将拆分的子任务提交MapReduce;
[0022]S24、每个子任务会加载被分配的脚本插件,每个运行插件会根据需要去上述存储集群中取需要的扫描缓存结果,一个子任务完成会通知任务分配器并将漏洞检测结果入库;
[0023]S25、如上述的子任务扫描过程中因为网络或者程序异常等报错,会通知任务管理器任务失败,任务管理器发现任务列表中数量够多或者等待时间到,会再次执行上述步骤S21,这样依次递推直到任务完成为止。
[0024]与现有技术相比,本专利技术有益效果如下:
[0025]本专利技术提供了一种基于Hadoop平台的网络主机漏洞扫描新方法,通过清洗器的清洗处理可以大大降低一次任务探测结果堆积的大量重复无效数据,能够充分利用各节点的CPU、内存等硬件资源,充分发挥分布式集群优势、提高扫描速度和容错率。
[0026]传统的扫描,每次任务单个IP的扫描中间缓存数据堆积严重,严重地拖慢了系统运行速度,本专利技术方法通过构建流程化的清洗器,将数据中缺失数据进行补全,可以增加扫描准确度,通过对历史数据构建基线本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop平台的一种数据清洗器,其特征在于,包括将大量扫描报文中重复、无效、误报的数据快速清洗掉,最后按照Hbase定义的格式分布式存储在集群中,具体包括以下步骤:S11、根据用户下发的配置,构建MapReduce任务,Hadoop会根据任务量分布式下发多个MapReduce任务,这些任务会对相应的主机发起探测,并接受探测的结果,接受的结果有ip(IP地址)、port(端口)、protocol(端口协议)、application(应用/服务)、version(应用版本)、result_key(各协议访问返回结果key)、result_cache(访问结果缓存);S12、提取历史数据的各相关的IP、端口、应用、版本、扫描结果,通过TF

IDF算法提取出各对应的关键字,并保存到存储集群中;S13、缺失值数据的处理,这里使用热卡填充法对缺失值处理,当前某IP、端口、应用对应的扫描结果缺失时,使用Levenshtein距离算法计算出缺失值与历史库中距离最近的关键词,然后将距离最近并排在缺失值前的值作为代替方案;S14、异常值数据的处理,基于历史扫描数据,建立了各种端口、服务、版本对应key的探测结果关键字库基线集合,比如key1关键字集合包含value1、value2等关键字集合,属于异常值的直接删除,并且会持续不断更新历史基线集合;S15、去重处理,删除掉相同IP、端口、应用、版本所对应的扫描结果,做去重处理;S16、入库处理,将清洗完成的数据格式化入库存储集群中。2.根据权利要求1所述的一种基于Hadoop平台的一种数据清洗器,其特征在于,所述步骤S12中,所述TF

IDF算法具体包括如下内容:设某词数量为A,该段扫描结果单词数量为B,计算TF=A/B,设语料库文档总数C,包含改词的文档数D,计算IDF=log(C/(D+1)),计算每个词的(TF

IDF)值,并降序排序,取排在前面的几个词。3.根据权利要求1所述的一种基于Had...

【专利技术属性】
技术研发人员:张广兴姜海洋朱连涛田利荣涂楚夏可强李博
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1