基于one-hot编码机制的无监督异常访问检测方法及装置制造方法及图纸

技术编号：17467751 阅读：45 留言：0更新日期：2018-03-15 05:11

本发明专利技术公开了一种基于one‑hot编码机制的无监督异常访问检测方法及装置，其中，该方法能够在异常URL的特征未知的前提下，利用二元语法模型、one‑hot编码机制以及深度自编码网络，准确检测出异常URL，从而避免异常访问，规避恶意访问所带来的危害。此外，解决了固定规则难以准确检测异常URL的问题，具有检测精度高、鲁棒性强的特点，可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习，能够在异常URL特征不明确并且异常样本非常少的情况下，准确识别异常URL。并且，深度自编码网络的训练阶段可以离线完成，在深度自编码网络建立完成之后，检测速度非常快，大大提高了异常访问的检测效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于one-hot编码机制的无监督异常访问检测方法及装置
本专利技术涉及下一代互联网网络安全
，尤其涉及基于one-hot编码机制的无监督异常访问检测方法及装置。
技术介绍
随着网络技术的不断普及，网络为人类提供的服务数量呈现指数型增长。面对下一代互联网提供的各式各样的网络服务与链接，如何保证用户访问正常网址有着极其重要的意义。传统的异常URL(UniformResourceLocator，统一资源定位符)检测，主要是基于固定的规则进行的。但是，面对大量的、呈指数形式增长的URL，由于异常URL各具特色，固定的规则所显露出的局限性十分明显，只能识别已知的异常URL。但是，大多数异常URL的特征是未知的，固定的规则却难以准确检测特征未知的异常URL，从而增加了用户对互联网的访问风险。通过对互联网中的大量URL进行分析，可以发现：尽管URL数量巨大，并且异常URL的特点难以确定，但是已有的URL中绝大多数为正常URL，并且它们存在类似的特征。考虑到机器学习能够高效获得数据内部的一些特征，目前已经有一些利用机器学习的方法来进行异常URL访问检测的方法。比如，基于统...
基于one-hot编码机制的无监督异常访问检测方法及装置

【技术保护点】
一种基于one‑hot编码机制的无监督异常访问检测方法，其特征在于，包括：利用one‑hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；利用K‑means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；比较第一类URL集...

【技术特征摘要】
1.一种基于one-hot编码机制的无监督异常访问检测方法，其特征在于，包括：利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。2.如权利要求1所述的方法，其特征在于，所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，包括：利用二元语法模型对测试URL样本集进行预处理，获取每一测试URL样本对应的序列；利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码，以获取每一测试URL样本对应的高维向量。3.如权利要求1所述的方法，其特征在于，所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集，包括：在全部的可视化的测试URL样本中选取两个可视化的测试URL样本，将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心；对未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离；比较第一距离和第二距离的大小，将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别；将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集，将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。4.如权利要求3所述的方法，其特征在于，所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心，包括：进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心；所述对未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离，包括：针对本轮，获取上一轮的第一质心和第二质心；判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同；若均不相同，对本轮中未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的...

【专利技术属性】
技术研发人员：徐恪，赵乙，谭崎，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人