当前位置: 首页 > 专利查询>辽东学院专利>正文

一种基于大数据的商业网站安全维护方法技术

技术编号:26032055 阅读:23 留言:0更新日期:2020-10-23 21:09
本发明专利技术提供了一种基于大数据的商业网站安全维护方法,包括:包括以下步骤:获取数据;数据收集和清理;双层数据聚类分析;个性化展示。本发明专利技术采用两层聚类模型,不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析,而且可以提高数据操作的效率和准确性,能够以有限的资源处理大量数据,在海量数据规模下实现高效的聚类,为商业网站维护人员提供了一种有效的在大数据环境下观察数据,维护网站安全的方法。

【技术实现步骤摘要】
一种基于大数据的商业网站安全维护方法
本专利技术属于商业分析领域,具体涉及一种基于大数据的商业网站安全维护方法。
技术介绍
人类社会已经进入了一切都可以数字化的大数据时代,如何通过有限的资源高效地分析海量数据,从复杂的数据中获取有价值的信息,是当今企业的共同需求。随着互联网技术的快速发展,越来越多的信息系统硬件设备和复杂的网络。同时,网络的日益开放也加剧了网络安全领域的各种问题。这些行为不仅影响网站的正常运行,而且增加了商业秘密或客户隐私信息泄露的风险,给企业带来重大的经济损失。解决网络安全问题是保证计算机网络更好应用的基础,而对网络日志数据的分析是企业网站运维中最直接的安全故障分析手段。当访问者访问企业网站时,所有访问信息,包括攻击者的攻击事件和行为,都会以日志的形式记录在网站的服务器上。因此,通过对日志数据的分析,可以客观有效地了解网站的网络安全状况,实现安全事件分析、运行分析以及性能故障排除等工作。由于每个访问者每次访问网站时会产生许多日志信息,网络日志数据随着访问者的增加而不断增加,数量巨大。此外,有许多类型的日志信息,内容的完整性和可用性也不相同。因此,如何解析不断变化的日志格式和处理TB级的海量日志容量是实现网络日志数据分析的关键。
技术实现思路
在此基础上应用需求,本专利技术提供了一种基于大数据的商业网站安全维护方法,采用两层聚类模型,不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析,而且可以提高数据操作的效率和准确性,能够以有限的资源处理大量数据,在海量数据规模下,实现高效的聚类,为商业网站维护人员提供了一种有效的在大数据环境下观察数据,维护网站安全的方法。本专利技术的一种基于大数据的商业网站安全维护方法,包括以下步骤:步骤1:获取数据;步骤2:数据收集和清理;步骤3:双层数据聚类分析:采用自组织映射算法模型对第一层数据进行聚类分析,采用模糊C均值聚类算法模型对第二层数据进行聚类分析;步骤4:个性化展示:通过二维坐标图进行展示。进一步的,在步骤3中,自组织映射算法模型的构建包含以下步骤:步骤3.1:初始化;将向量及其对应的权向量矩阵进行归一化,使不同角度和长度的向量成为相同方向和长度为1的单位向量;T表示两个向量之间的最大值;步骤3.2:通过计算向量内积的值,找到获胜神经元:当一个向量随机输入到输入层时,将竞争层中所有神经元对应的权向量与输入向量进行相似性比较;内积值越大,相似性越高;相似度最大的权重向量被判定为获胜神经元;xTxi=||x||||xi||cosθ;步骤3.3:调整权重系数:只有获胜神经元可以调整权值向量,e(t)为学习率;步骤3.4:修改e(t)学习率,当迭代次数达到最大值时输出结果;否则,重复步骤3.2,直到输出结果。进一步的,在步骤2中,每个日志数据包含访客基本信息、注册天数、登录时间、用户权限级别、客户端浏览器、源IP、登录邮箱、连续登录天数等重要信息,根据这些信息与网络安全事件的关联程度,提取以上日志数据维数作为双层聚类分析的输入值。进一步的,所述模糊C均值聚类算法模型的构建包含以下步骤:步骤3.2.1:对初始矩阵J(U,C1,C2...Cc)进行随机划分,初始化聚类中心P和距离T,使矩阵的值满足归一化条件,矩阵的所有隶属度之和等于1。(k=1,2,……n),uik表示Xk对第i个样本的隶属度;步骤3.2.2:计算每个模糊组的聚类中心P,其中m是一个加权指数;步骤3.2.3:通过计算各模糊组的聚类中心P和样本数据的目标函数得到新的函数矩阵Jm;dik表示样本点Xk到第i类样本与聚类中心Pi之间的距离;dik2=||Xk-Pi||=(Xk-Pi)TA(Xk-Pi);步骤3.2.4:用拉格朗日算子F求解极值,使目标函数达到最小值,重复步骤3.2.2,直到得到最优解;其中λ是参数;进一步的,步骤4中的个性化显示包括:采用T分布邻域嵌入算法将双层聚类模型计算得到的多维测井数据映射到二维坐标图上。本专利技术采用自组织映射算法模型对第一层数据进行聚类,找出日志数据簇和每个中心点的数量,从而减少原始数据簇的基数,降低计算复杂度,第二层采用模糊C均值聚类算法模型进行聚类,划分第一次聚类产生的中心点的隶属度。该划分基于模糊聚类的区间值模糊集数据,由隶属度决定数据聚类的差异程度。采用两层聚类模型,不仅可以根据日志数据的复杂性、特殊性和模糊性进行有效的聚类和降维分析,而且可以提高数据操作的效率和准确性,能够以有限的资源处理大量数据,在海量数据规模下实现高效的聚类,为商业网站维护人员提供了一种有效的在大数据环境下观察数据,维护网站安全的方法。附图说明附图1为专利技术的一种基于大数据的商业网站安全维护方法的流程图。附图2为专利技术的一种基于大数据的商业网站安全维护系统的结构图。具体实施方式为了解决
技术介绍
提出的问题,本专利技术应用自组织映射算法模型和模糊C均值聚类算法模型对日志数据进行两层聚类分析获得的监测商业公司的网站,然后用二维可视化日志数据图表根据聚类结果。具体的,本专利技术的一种基于大数据的商业网站安全维护方法,包括以下步骤:步骤1:获取数据;步骤2:数据收集和清理;步骤3:双层数据聚类分析:采用自组织映射算法模型对第一层数据进行聚类分析,采用模糊C均值聚类算法模型对第二层数据进行聚类分析;步骤4:个性化展示:通过二维坐标图进行展示。海量数据本身的数据密度大、价值量低,价值密度低等特点,直接对其进行数据挖掘得出的结果准确性和效率较低。现实产生的数据往往是复杂的,因此对初始数据集进行预处理也是必不可少的过程。数据预处理指在进行数据挖掘之前对数据进行清洗、降维、去除噪声点等操作预处理过程如图。通过数据预处理的操作可以增强数据的真实性、可靠性,获得良好的算法应用结果。在对企业的数据集在输入算法进行处理之前,对原始数据进行有效的预处理显得尤为重要。在真实的数据集中,由于存储数据时网络环境因素的影响等,不可避免的会产生某几维数据缺失的问题。为保证原始数据完整性需要对缺失数据进行插值处理。取出缺失值前后n个距离单位的数据,,然后采用拉格朗日多项值插值公式:上式中li含义如下:式中,Ln(x)为缺失值的插值函数;i为非缺失值yi的下标序号。对全部缺失值数据依次进行插补,直到不存在缺失值。另外,数据一般在存储的过程中会存在格式或者粒度的差别;在此种情况下必须将格式统一。对数据类别进行预处理时,应该根据不同的数据类型,存储空间进行处理得到符合要求的数据。在数据录入的过程中,可能存在由于网络状态不佳发出了多条请求,这个时候就有可能出现重复数据。对于重复数据可以采用匹配组合方式去除重复项,对重复值清洗。原始数据为累积的上千万条数据,数据具有复杂性,且数据本文档来自技高网
...

【技术保护点】
1.一种基于大数据的商业网站安全维护方法,其特征在于,包括以下步骤:/n步骤1:获取日志数据,每个日志数据包含访客基本信息、注册天数、登录时间、用户权限级别、客户端浏览器、源IP、登录邮箱、连续登录天数等重要信息,根据这些信息与网络安全事件的关联程度,提取以上日志数据维数作为双层聚类分析的输入值;/n步骤2:数据收集和清理:根据日志数据与网络安全事件的相关性,并将日志数据分为相应个数的簇;/n步骤3:双层数据聚类分析:采用自组织映射算法模型对第一层数据进行聚类分析,采用模糊C均值聚类算法模型对第二层数据进行聚类分析;/n其中,自组织映射算法模型的构建包含以下步骤:/n步骤3.1:初始化;将向量及其对应的权向量矩阵进行归一化,使不同角度和长度的向量成为相同方向和长度为1的单位向量;T表示两个向量之间的最大值;/n

【技术特征摘要】
1.一种基于大数据的商业网站安全维护方法,其特征在于,包括以下步骤:
步骤1:获取日志数据,每个日志数据包含访客基本信息、注册天数、登录时间、用户权限级别、客户端浏览器、源IP、登录邮箱、连续登录天数等重要信息,根据这些信息与网络安全事件的关联程度,提取以上日志数据维数作为双层聚类分析的输入值;
步骤2:数据收集和清理:根据日志数据与网络安全事件的相关性,并将日志数据分为相应个数的簇;
步骤3:双层数据聚类分析:采用自组织映射算法模型对第一层数据进行聚类分析,采用模糊C均值聚类算法模型对第二层数据进行聚类分析;
其中,自组织映射算法模型的构建包含以下步骤:
步骤3.1:初始化;将向量及其对应的权向量矩阵进行归一化,使不同角度和长度的向量成为相同方向和长度为1的单位向量;T表示两个向量之间的最大值;



步骤3.2:通过计算向量内积的值,找到获胜神经元:当一个向量随机输入到输入层时,将竞争层中所有神经元对应的权向量与输入向量进行相似性比较;内积值越大,相似性越高;相似度最大的权重向量被判定为获胜神经元;
xTxi=||x||||xi||cosθ;
步骤3.3:调整权重系数:只有获胜神经元可以调整权值向量,e(t)为学习率;



步骤3.4:修改e(t)学习率,当迭代次数达到最大值时输...

【专利技术属性】
技术研发人员:傅立光
申请(专利权)人:辽东学院
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1