当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于MapReduce并行聚类技术的终端安全性分析方法和系统技术方案

技术编号:28374702 阅读:15 留言:0更新日期:2021-05-08 00:02
本发明专利技术公开了一种基于MapReduce并行聚类技术的终端安全性分析方法,包括:从终端获取其日志数据,并使用自然语言处理库对日志数据进行处理,以得到多个分词;对得到的多个分词进行过滤处理,以得到过滤后的多个分词;使用TF‑IDF算法提取过滤后的每个分词的特征,所有特征构成该日志数据对应的日志向量X;计算得到的日志数据对应的日志向量与预先设置的K个聚类中心中每个聚类中心的欧氏距离,并获取所有欧氏距离的最小值所对应的聚类中心,根据该聚类中心确定终端的最终安全等级。本发明专利技术能够降低噪声日志干扰带来的影响,并且能解决现有终端安全性判断的人力成本高、速度慢,分类结果受不同技术人员自身经验影响,以及传统终端安全分类方法的不准确的问题。

【技术实现步骤摘要】
一种基于MapReduce并行聚类技术的终端安全性分析方法和系统
本专利技术属于信息安全
,更具体地,涉及一种基于MapReduce并行聚类技术的终端安全性分析方法和系统。
技术介绍
随着计算机网络技术的飞速发展,社会各界对网络的依赖性日益增强,病毒、间谍软件和黑客入侵网路事件增多,网络与信息安全问题日益突出。而目前常规安全防御理念往往限在网关级别、网路边界(防火墙、防病毒、漏洞扫描)等方面的防御,重要的安全防护设备主要集中于机房或者网络的入口处,在这些安全设备的监控下,来自网络外部的安全威胁大大减小,相反地,来自内部计算机终端的安全威胁成为普遍问题,经过了多年的网络安全建设,网络安全的发展趋势也由核心网络和主干网络的防护转向内部终端的安全管理。网络安全管理工作量最大的部分转变成了终端安全部分,终端安全的风险评估是网络安全保证的关键环节,为了防止网络受到威胁,根据终端的日志指标,对网络的终端安全状况进行客观有效的分析评估,依据评估结果完善安全策略和制定风险处理计划,最大程度的保护网络信息安全。传统的网络终端安全评估主要是使用渗透测试技术,其主要是依赖于基于主机的扫描工具,通过对网络终端系统安全漏洞的监测,根据所获得的系统漏洞信息,得出网络终端安全状况的评估值,然后通过定性、定量或定量与定性结合的方法来分析终端的安全性。然而,上述基于渗透测试技术的网络终端安全评估方法还是存在不可忽略的缺陷:第一、由于终端安全涉及多层面和多因素,同时具有不确定性和复杂性,传统的定量、定性分析方法有些是相互矛盾的,使得指标之间不能直接比较,此方法很难对终端安全性进行全面的评估,因此其会导致最终得到的终端安全性评估结果偏低;第二、由于传统网络终端安全评估方法依赖已有的安全漏洞库,安全漏洞库的更新会不够及时,因此其不能迅速识别新型网络风险;第三、由于传统网络终端安全评估方法主要依靠评估者根据自身的经验知识来定级,其评估方法需要依靠专业设备与工具,并耗费一定的时间,因此其需要大量的人力物力成本,并且不能及时高效地反映终端安全性。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于MapReduce并行聚类技术的终端安全性分析方法和系统,其目的在于,解决现有基于渗透测试技术的网络终端安全评估方法由于无法对终端安全性进行全面的评估,导致最终得到的终端安全性评估结果偏低的技术问题,以及由于其依赖已有的安全漏洞库,安全漏洞库的更新不够及时,导致其不能迅速识别新型网络风险的技术问题,以及由于需要依靠专业设备与工具,导致耗时耗力、且不能及时高效地反映终端安全性的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于MapReduce并行聚类技术的终端安全性分析方法,包括以下步骤:(1)从终端获取其日志数据,并使用自然语言处理库对日志数据进行处理,以得到多个分词;(2)对步骤(1)得到的多个分词进行过滤处理,以得到过滤后的多个分词;(3)使用词频-逆文本频率TF-IDF算法提取步骤(2)过滤后的每个分词的特征,所有特征构成该日志数据对应的日志向量X,且有X=(x1,x2,...,xnum),xm表示所有特征中的第m个,num表示提取的所有分词的特征总数,且m∈[1,num];(4)计算步骤(3)得到的日志数据对应的日志向量与预先设置的K个聚类中心中每个聚类中心的欧氏距离,并获取所有欧氏距离的最小值所对应的聚类中心,根据该聚类中心确定终端的最终安全等级。优选地,步骤(1)中获取日志数据是通过调用Syslog接口来获取计算机的日志数据;日志数据包括程序模块、严重性、进程名称、生成时间、以及日志内容等;严重性包括错误、信息、警告、关键等;程序模块包括内核层、用户层、邮件系统、授权信息等。优选地,K个聚类中心是通过以下步骤建立得到的:(4-1)从终端获取多个日志数据,并使用自然语言处理库对每个日志数据进行处理,以得到该日志数据对应的多个分词;(4-2)针对每个日志数据而言,对该日志数据对应的多个分词进行过滤处理,以得到过滤后的多个分词;(4-3)针对每个日志数据而言,使用TF-IDF算法对步骤(4-2)过滤后的多个分词进行处理,以获取该日志数据对应的日志向量;(4-4)从所有日志数据对应的所有日志向量中选择K个日志向量作为聚类中心,将这些聚类中心放入全局变量集合(其初始为空)中;(4-5)针对日志向量集合中的每个日志向量而言,使用MapReduce模型计算该日志向量到全局变量集合中每个聚类中心的欧氏距离,将所有欧氏距离中的最小值对应的聚类中心作为键、该日志向量作为值建立键值对;(4-6)针对步骤(4-5)建立的多个键值对中的每一个聚类中心而言,将该聚类中心、以该聚类中心作为键所对应的所有值形成集合,并计算该集合中所有日志向量的平均值作为对该聚类中心进行更新后的聚类中心;(4-7)判断所有更新后的聚类中心构成的集合是否和步骤(4-4)得到的全局变量集合完全相同,如果是则进入步骤(4-8),否则将更新后的K个聚类中心构成的集合替换该全局变量集合,并返回步骤(4-5);(4-8)判断是否从终端获取到新的日志数据,如果是则返回步骤(4-2),否则过程结束。优选地,从日志向量集合中选择K个日志向量这一过程包括以下子步骤:(4-4-1)计算日志向量集合中所有日志向量的平均欧氏距离davg;(4-4-2)根据步骤(4-4-1)得到的平均欧氏距离davg计算日志向量集合中每个日志向量的点密度(4-4-3)针对日志向量集合中的每个日志向量而言,根据步骤(4-4-2)得到的该日志向量的点密度获取该日志向量对应的最短距离;(4-4-4)获取值最大的K个日志向量点作为聚类中心。优选地,每个日志向量的点密度等于:其中表示日志向量Xi和日志向量Xj之间的欧氏距离,且有i和j均∈[1,n],n表示日志向量集合中日志向量的总数;优选地,对于日志向量Xi而言,如果其点密度是所有日志向量对应点密度的最大值,则该日志向量对应的最短距离等于从该日志向量Xi到日志向量集合中其余每个日志向量的欧氏距离中的最大值;对于日志向量Xi而言,如果其点密度不是所有日志向量对应点密度的最大值,则该日志向量对应的最短距离等于从该日志向量Xi到点密度大于该日志向量Xi的点密度的每个日志向量的欧氏距离中的最小值。按照本专利技术的另一方面,提供了一种基于MapReduce并行聚类技术的终端安全性分析系统,包括:第一模块,用于从终端获取其日志数据,并使用自然语言处理库对日志数据进行处理,以得到多个分词;第二模块,用于对第一模块得到的多个分词进行过滤处理,以得到过滤后的多个分词;第三模块,用于使用词频-逆文本频率TF-IDF算法提取第二模块过滤后的每个分词的特征,所有特征构成该日志数据对应的日志向量X,且有X=(x1,x2,…,xnum),xm表本文档来自技高网
...

【技术保护点】
1.一种基于MapReduce并行聚类技术的终端安全性分析方法,其特征在于,包括以下步骤:/n(1)从终端获取其日志数据,并使用自然语言处理库对日志数据进行处理,以得到多个分词;/n(2)对步骤(1)得到的多个分词进行过滤处理,以得到过滤后的多个分词。/n(3)使用词频-逆文本频率TF-IDF算法提取步骤(2)过滤后的每个分词的特征,所有特征构成该日志数据对应的日志向量X,且有X=(x

【技术特征摘要】
1.一种基于MapReduce并行聚类技术的终端安全性分析方法,其特征在于,包括以下步骤:
(1)从终端获取其日志数据,并使用自然语言处理库对日志数据进行处理,以得到多个分词;
(2)对步骤(1)得到的多个分词进行过滤处理,以得到过滤后的多个分词。
(3)使用词频-逆文本频率TF-IDF算法提取步骤(2)过滤后的每个分词的特征,所有特征构成该日志数据对应的日志向量X,且有X=(x1,x2,…,xnum),xm表示所有特征中的第m个,num表示提取的所有分词的特征总数,且m∈[1,num];
(4)计算步骤(3)得到的日志数据对应的日志向量与预先设置的K个聚类中心中每个聚类中心的欧氏距离,并获取所有欧氏距离的最小值所对应的聚类中心,根据该聚类中心确定终端的最终安全等级。


2.根据权利要求1所述的基于MapReduce并行聚类技术的终端安全性分析方法,其特征在于,
步骤(1)中获取日志数据是通过调用Syslog接口来获取计算机的日志数据;
日志数据包括程序模块、严重性、进程名称、生成时间、以及日志内容等;
严重性包括错误、信息、警告、关键等;
程序模块包括内核层、用户层、邮件系统、授权信息等。


3.根据权利要求1或2所述的基于MapReduce并行聚类技术的终端安全性分析方法,其特征在于,K个聚类中心是通过以下步骤建立得到的:
(4-1)从终端获取多个日志数据,并使用自然语言处理库对每个日志数据进行处理,以得到该日志数据对应的多个分词;
(4-2)针对每个日志数据而言,对该日志数据对应的多个分词进行过滤处理,以得到过滤后的多个分词;
(4-3)针对每个日志数据而言,使用TF-IDF算法对步骤(4-2)过滤后的多个分词进行处理,以获取该日志数据对应的日志向量;
(4-4)从所有日志数据对应的所有日志向量中选择K个日志向量作为聚类中心,将这些聚类中心放入全局变量集合(其初始为空)中;
(4-5)针对日志向量集合中的每个日志向量而言,使用MapReduce模型计算该日志向量到全局变量集合中每个聚类中心的欧氏距离,将所有欧氏距离中的最小值对应的聚类中心作为键、该日志向量作为值建立键值对。
(4-6)针对步骤(4-5)建立的多个键值对中的每一个聚类中心而言,将该聚类中心、以该聚类中心作为键所对应的所有值形成集合,并计算该集合中所有日志向量的平均值作为对该聚类中心进行更新后的聚类中心;
(4-7)判断所有更新后的聚类中心构成的集合是否和步骤(4-4)得到的全局变量集合完全相同,如果是则进入步骤(4-8),否则将...

【专利技术属性】
技术研发人员:李肯立李金娜杨志邦于思洋刘楚波唐卓肖国庆段明星阳王东李克勤
申请(专利权)人:湖南大学湖南匡安网络技术有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1