采用改进型自组织特征神经网络聚类算法的入侵检测方法技术

技术编号:15518278 阅读:145 留言:0更新日期:2017-06-04 08:33
本发明专利技术提供一种采用改进型自组织特征神经网络聚类算法的入侵检测方法,对云存储系统环境下日志文件数据进行数据清洗,利用基于双层聚类算法的一种自组织特征映射神经网络聚类方法对清洗后的日志数据进行训练,产生数据分类的结果,基于PCA算法进行异常分析从而达到入侵检测的目的。

【技术实现步骤摘要】
采用改进型自组织特征神经网络聚类算法的入侵检测方法
本专利技术属于机器学习和入侵检测领域,尤其涉及一种采用自组织特征映射神经网络聚类算法实现云存储环境下的入侵检测方法。
技术介绍
信息时代的迅速发展,各产业界正在往互联网+方向转型,随着网络化服务趋于大众化,网络安全问题成为众人关注的焦点。因此,入侵检测系统也进入人们的视野,它可以通过实时分析获取计算机系统、网络和用户的行为信息,以此来评估计算机系统和网络的安全性。另外,随着各产业界的数据量以爆炸式方式增长,云存储成为各界的翘楚,云存储作为新的存储模式,改变了传统计算机存储方式,但是其虚拟化、分布式、以及透过任何可连网的装置连接到云上方便地存取数据的特点给计算机系统,网络以及用户带来巨大的安全挑战。为了能有效的应对这些新的挑战,研究云存储环境下的入侵检测具有非常重要的意义。自组织特征映射神经网络方法具有自组织的,无导师学习特性,同时还具有类似人类大脑思考问题的方式的特点,在很多领域都取得显著的效果,尤其是在异常检测方面,因此,将自组织特征神经网络算法(SOFM)应用于入侵检测领域已经引起了国内外相关学者的高度关注。但是针对目前SOFM算法的研究还不是很充足,传统SOFM算法初始阶段神经元的个数以及对应的权向量的确定影响算法执行过程中的准确率。另外,在训练阶段,神经元之间的邻域关系被不断地固化,已有的拓扑保持映射限制了训练过程中网络结构的生长,这在很大程度上取决于神经元的初始权向量随机产生以及待训练数据的输入顺序,若输入的权值向量太远以至于从未从竞争中获胜,因而也从未得到学习,容易形成“死神经元”。为了解决这个问题,学者们先后提出了一些自动创建更新的神经元模型:1)自创建组织神经网络(BCL):采用基于几何测量方式的一种特殊节点分裂准则决定是否新生长新节点2)增长式自组织神经网络(GSOM)基于启发式边界值设置决定是否要生长新的节点。这些聚类技术结合先验知识动态调整簇结构,以达到最佳。通过局部最优调节或增加神经元,可改善上述提到的部分问题,但从现有神经元生长出新神经元会导致当前神经元存在位置偏离的可能性,同时“新神经元”与已存在神经元之间的耦合性也是需要考虑的地方。因此,需要研究一种新颖的SOFM算法来避免在神经元个数以及权向量选择上的盲目性,削减在训练样本数据集中容易“死神经元”的产生的可能。通过克服目前SOFM算法存在的不足以此对于提高该算法在云存储系统环境下的入侵检测具有非常重要的应用意义。
技术实现思路
本专利技术要解决的技术问题是,提供一种采用基于双层聚类的自组织特征映射神经网络聚类算法的云存储系统环境下的入侵检测方法。为实现上述目的,本专利技术采用如下的技术方案:一种采用改进型自组织特征神经网络聚类算法的入侵检测方法包括以下步骤:步骤1、对云存储系统下的日志文件数据进行基于正则规则下的日志清洗工作得到样本训练集;步骤2、基于双层聚类的自组织特征神经网络聚类算法对所述样本训练集进行数据分类,步骤3、对每个分类数据集采用主成分分析算法(PCA)进行异常检测分析,实现入侵检测的目的。作为优选,步骤1具体为:对云存储系统环境下的日志文件,采用基于时间序列下对日志文件进行基于正则表达式的特征属性提取工作,然后把这个时间序列下的特征属性对应的值构成一个特征向量存储到临时存储区,完成对数据的清洗工作。作为优选,步骤2中首先采用双层聚类算法(Canopy)基于无监督学习的方式预测产生初始阶段的神经元的个数以及对应的权向量,用这个值作为改进的SOFM算法的初始神经元输入值;然后采用改进的自组织特征映射神经网络聚类方法SOFM算法通过簇内数据细化分来动态添加神经元阶段、偏离神经元调节阶段、相似神经元合并阶段,完成对输入样本数据的分类。作为优选,步骤3中抽取云存储系统日志数据中正常的样本数据,利用采用主成分分析算法(PCA)建立主元模型确定主元个数,以及定义异常的控制限Q,其次分别求聚类算法分类出来的待测数据集的主元,得到待测数据集的统计量SPE,基于SPE以及Q实现异常入侵检测。综上所述,本方法实现对云存储系统环境下异常的入侵检测,涉及到的主要方法是用基于双层聚类算法下改进的自组织特征神经网络算法来训练云存储系统中的日志数据,根据PCA算法进行异常分析,从而达到入侵检测的目的。整个方法在实施的过程中添加更多的自主学习的特性,减少人为控制的可能。另外,算法的实现过程采用Python语言编写开发,Python中提供大量的与数据处理有关的库numpy、pandas,以及图表库matplotlib用于可视化显示训练数据的被分到不同的簇的分布情况,可以简单直观的判断算法执行的效果,另外,Python具有可移植、快速的特点,对双层聚类下一种自组织特征映射神经网络聚类方法(SOFM)、主成分分析算法(PCA)的实现以及实际应用具有重要的意义。附图说明图1本专利技术采用改进型自组织特征神经网络聚类算法的入侵检测方法的流程图;图2数据清洗的流程图;图3改进的自组织特征映射神经网络聚类方法流程图;图4调整偏离神经元特征描述图;图5相似神经元合并特征描述图;图6主成分分析算法(PCA)异常入侵检测的流程描述图。具体实施方式如图1所示,本专利技术提供一种采用改进型自组织特征神经网络聚类算法的入侵检测方法包括:由数据清洗、双层次聚类算法(Canopy)以及改进的自组织特征映射神经网络聚类方法(SOFM)以及异常入侵检测,具体如下:1.1数据清洗如图2所示,待检测数据来自于云存储系统环境下的日志文件,针对非结构化的日志文件这里需要进行数据的结构化初始化处理,以使得待检测数据满足输入格式。该算法描述如算法1所示。算法1.数据清洗算法描述输入:云存储系统下的日志文件log_file.txt,提取特征属性的正则表达式reg输出:结构化的训练数据dataSet1.遍历log_file.txt文件中的每一行记录record,如果遍历到最后一行则执行步骤4;:2.如果record满足正则表达式reg,执行第3步,否则,执行第1步;3.把满足条件的特征属性对应的值以列表的形式放到数组dataSet中,执行第1步;4.返回dataSet,结束算法;1.2Canopy算法通过Canopy算法模糊确定神经元的个数以及对应的权向量来避免在运行SOFM算法初始阶段对神经元个数的盲目选择。该算法描述如算法2所示。算法2.Canopy算法描述输入:训练数据集dataSet,存放所有聚类中心的集合cano_center输出:中心点的个数center_K以及对应的权向量center_W1.dataSet集合为空;执行10否则,执行步骤2;2.取dataSet[0]作为聚类中心center;3.如果dataSet全部遍历结束;执行1否则,执行步骤4;4.遍历dataSet[next]下一元素,当前设为x,计算distance(x,center);5.ifdistance<t1;执行步骤6;6.center_arr.add(x);//属于单个中心点的数据集7.ifdistance<t2;执行步骤8;8.dataSet.remove(x);9.cano_center.add(center_arr);执行步骤310.cente本文档来自技高网
...
采用改进型自组织特征神经网络聚类算法的入侵检测方法

【技术保护点】
一种采用改进型自组织特征神经网络聚类算法的入侵检测方法,其特征在于,包括以下步骤:步骤1、对云存储系统下的日志文件数据进行基于正则规则下的日志清洗工作得到样本训练集;步骤2、基于双层聚类的自组织特征神经网络聚类算法对所述样本训练集进行数据分类,步骤3、对每个分类数据集采用主成分分析算法(PCA)进行异常检测分析,实现入侵检测的目的。

【技术特征摘要】
1.一种采用改进型自组织特征神经网络聚类算法的入侵检测方法,其特征在于,包括以下步骤:步骤1、对云存储系统下的日志文件数据进行基于正则规则下的日志清洗工作得到样本训练集;步骤2、基于双层聚类的自组织特征神经网络聚类算法对所述样本训练集进行数据分类,步骤3、对每个分类数据集采用主成分分析算法(PCA)进行异常检测分析,实现入侵检测的目的。2.如权利要求1所述的采用改进型自组织特征神经网络聚类算法的入侵检测方法,其特征在于,步骤1具体为:对云存储系统环境下的日志文件,采用基于时间序列下对日志文件进行基于正则表达式的特征属性提取工作,然后把这个时间序列下的特征属性对应的值构成一个特征向量存储到临时存储区,完成对数据的清洗工作。3.如权利要求1所述的采用改进型自组织特征神经网络聚类...

【专利技术属性】
技术研发人员:王丹魏卓君赵文兵付利华杜晓林
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1