一种基于MapReduce并行聚类技术的终端安全性分析方法和系统技术方案

技术编号：28374702 阅读：26 留言：0更新日期：2021-05-08 00:02

本发明专利技术公开了一种基于MapReduce并行聚类技术的终端安全性分析方法，包括：从终端获取其日志数据，并使用自然语言处理库对日志数据进行处理，以得到多个分词；对得到的多个分词进行过滤处理，以得到过滤后的多个分词；使用TF‑IDF算法提取过滤后的每个分词的特征，所有特征构成该日志数据对应的日志向量X；计算得到的日志数据对应的日志向量与预先设置的K个聚类中心中每个聚类中心的欧氏距离，并获取所有欧氏距离的最小值所对应的聚类中心，根据该聚类中心确定终端的最终安全等级。本发明专利技术能够降低噪声日志干扰带来的影响，并且能解决现有终端安全性判断的人力成本高、速度慢，分类结果受不同技术人员自身经验影响，以及传统终端安全分类方法的不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MapReduce并行聚类技术的终端安全性分析方法和系统
本专利技术属于信息安全
，更具体地，涉及一种基于MapReduce并行聚类技术的终端安全性分析方法和系统。
技术介绍
随着计算机网络技术的飞速发展，社会各界对网络的依赖性日益增强，病毒、间谍软件和黑客入侵网路事件增多，网络与信息安全问题日益突出。而目前常规安全防御理念往往限在网关级别、网路边界(防火墙、防病毒、漏洞扫描)等方面的防御，重要的安全防护设备主要集中于机房或者网络的入口处，在这些安全设备的监控下，来自网络外部的安全威胁大大减小，相反地，来自内部计算机终端的安全威胁成为普遍问题，经过了多年的网络安全建设，网络安全的发展趋势也由核心网络和主干网络的防护转向内部终端的安全管理。网络安全管理工作量最大的部分转变成了终端安全部分，终端安全的风险评估是网络安全保证的关键环节，为了防止网络受到威胁，根据终端的日志指标，对网络的终端安全状况进行客观有效的分析评估，依据评估结果完善安全策略和制定风险处理计划，最大程度的保护网络信息安全。传统的网络...

【技术保护点】
1.一种基于MapReduce并行聚类技术的终端安全性分析方法，其特征在于，包括以下步骤：/n(1)从终端获取其日志数据，并使用自然语言处理库对日志数据进行处理，以得到多个分词；/n(2)对步骤(1)得到的多个分词进行过滤处理，以得到过滤后的多个分词。/n(3)使用词频-逆文本频率TF-IDF算法提取步骤(2)过滤后的每个分词的特征，所有特征构成该日志数据对应的日志向量X，且有X＝(x

【技术特征摘要】
1.一种基于MapReduce并行聚类技术的终端安全性分析方法，其特征在于，包括以下步骤：
(1)从终端获取其日志数据，并使用自然语言处理库对日志数据进行处理，以得到多个分词；
(2)对步骤(1)得到的多个分词进行过滤处理，以得到过滤后的多个分词。
(3)使用词频-逆文本频率TF-IDF算法提取步骤(2)过滤后的每个分词的特征，所有特征构成该日志数据对应的日志向量X，且有X＝(x1，x2，…，xnum)，xm表示所有特征中的第m个，num表示提取的所有分词的特征总数，且m∈[1，num]；
(4)计算步骤(3)得到的日志数据对应的日志向量与预先设置的K个聚类中心中每个聚类中心的欧氏距离，并获取所有欧氏距离的最小值所对应的聚类中心，根据该聚类中心确定终端的最终安全等级。

2.根据权利要求1所述的基于MapReduce并行聚类技术的终端安全性分析方法，其特征在于，
步骤(1)中获取日志数据是通过调用Syslog接口来获取计算机的日志数据；
日志数据包括程序模块、严重性、进程名称、生成时间、以及日志内容等；
严重性包括错误、信息、警告、关键等；
程序模块包括内核层、用户层、邮件系统、授权信息等。

3.根据权利要求1或2所述的基于MapReduce并行聚类技术的终端安全性分析方法，其特征在于，K个聚类中心是通过以下步骤建立得到的：
(4-1)从终端获取多个日志数据，并使用自然语言处理库对每个日志数据进行处理，以得到该日志数据对应的多个分词；
(4-2)针对每个日志数据而言，对该日志数据对应的多个分词进行过滤处理，以得到过滤后的多个分词；
(4-3)针对每个日志数据而言，使用TF-IDF算法对步骤(4-2)过滤后的多个分词进行处理，以获取该日志数据对应的日志向量；
(4-4)从所有日志数据对应的所有日志向量中选择K个日志向量作为聚类中心，将这些聚类中心放入全局变量集合(其初始为空)中；
(4-5)针对日志向量集合中的每个日志向量而言，使用MapReduce模型计算该日志向量到全局变量集合中每个聚类中心的欧氏距离，将所有欧氏距离中的最小值对应的聚类中心作为键、该日志向量作为值建立键值对。
(4-6)针对步骤(4-5)建立的多个键值对中的每一个聚类中心而言，将该聚类中心、以该聚类中心作为键所对应的所有值形成集合，并计算该集合中所有日志向量的平均值作为对该聚类中心进行更新后的聚类中心；
(4-7)判断所有更新后的聚类中心构成的集合是否和步骤(4-4)得到的全局变量集合完全相同，如果是则进入步骤(4-8)，否则将...

【专利技术属性】
技术研发人员：李肯立，李金娜，杨志邦，于思洋，刘楚波，唐卓，肖国庆，段明星，阳王东，李克勤，
申请(专利权)人：湖南大学，湖南匡安网络技术有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人