【技术实现步骤摘要】
基于one-hot编码机制的无监督异常访问检测方法及装置
本专利技术涉及下一代互联网网络安全
,尤其涉及基于one-hot编码机制的无监督异常访问检测方法及装置。
技术介绍
随着网络技术的不断普及,网络为人类提供的服务数量呈现指数型增长。面对下一代互联网提供的各式各样的网络服务与链接,如何保证用户访问正常网址有着极其重要的意义。传统的异常URL(UniformResourceLocator,统一资源定位符)检测,主要是基于固定的规则进行的。但是,面对大量的、呈指数形式增长的URL,由于异常URL各具特色,固定的规则所显露出的局限性十分明显,只能识别已知的异常URL。但是,大多数异常URL的特征是未知的,固定的规则却难以准确检测特征未知的异常URL,从而增加了用户对互联网的访问风险。通过对互联网中的大量URL进行分析,可以发现:尽管URL数量巨大,并且异常URL的特点难以确定,但是已有的URL中绝大多数为正常URL,并且它们存在类似的特征。考虑到机器学习能够高效获得数据内部的一些特征,目前已经有一些利用机器学习的方法来进行异常URL访问检测的方法。比如,基于统 ...
【技术保护点】
一种基于one‑hot编码机制的无监督异常访问检测方法,其特征在于,包括:利用one‑hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;利用K‑means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集 ...
【技术特征摘要】
1.一种基于one-hot编码机制的无监督异常访问检测方法,其特征在于,包括:利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。2.如权利要求1所述的方法,其特征在于,所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,包括:利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的序列;利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码,以获取每一测试URL样本对应的高维向量。3.如权利要求1所述的方法,其特征在于,所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集,包括:在全部的可视化的测试URL样本中选取两个可视化的测试URL样本,将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心;对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离;比较第一距离和第二距离的大小,将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别;将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集,将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。4.如权利要求3所述的方法,其特征在于,所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心,包括:进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心;所述对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离,包括:针对本轮,获取上一轮的第一质心和第二质心;判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同;若均不相同,对本轮中未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。