一种针对DNS数据预测的方法技术

技术编号:23561816 阅读:26 留言:0更新日期:2020-03-25 06:33
本发明专利技术公开一种针对DNS数据预测的方法,所述方法包括以下步骤:(1)利用采集器等工具对DNS服务器的日志数据进行收集;(2)对采集的数据根据其特征值进行预处理;(3)根据相似度把采集的数据进行降维处理;(4)把低维空间的数据进行分类;(5)对分类过后的低维数据使用回归进行预测;(6)收集预测结果分析走向。通过对DNS服务器中查询日志信息进行提取与处理,从而可以对网络流量以及网站安全做出预测。

A method for DNS data prediction

【技术实现步骤摘要】
一种针对DNS数据预测的方法
本专利技术属于计算机网络信息领域,具体的,本专利技术涉及一种针对DNS数据预测的方法。
技术介绍
DNS(DomainNameServer,域名服务器)是进行域名(domainname)和与之相对应的IP地址(IPaddress)转换的服务器。DNS中保存了一张域名(domainname)和与之相对应的IP地址(IPaddress)的表,以解析消息的域名。在域名注册查询域名并购买了主机服务后,你需要将域名解析到所购买的主机上,才能看到网站内容。目前,存在在DNS网络中无法对网络流量以及网站安全做出预测的问题。
技术实现思路
针对上述技术问题,本专利技术的目的在于,提出了一种针对DNS数据预测的方法,可以对DNS数据收集、预处理、降维、分类、回归、预测分析。可以解决高维数据所带来的维数灾难问题,提高了分类回归树预测的准确性,从而可以分析网站流量去向以及网站安全性等方面。一种针对DNS数据预测的方法,包括以下步骤:利用采集器等工具对DNS服务器的日志数据进行收集;对采集的数据根据其特征值进行预处理;根据相似度把采集的数据进行降维处理;把低维空间的数据进行分类;对分类过后的低维数据使用回归进行预测;收集预测结果分析走向。作为优选,采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文信息。作为优选,数据预处理操作包括:数据包括;源IP单位时间内的DNS请求次数、DNS请求次数的峰值、DNS请求失败的比例、源端口的信息熵、域名种类的信息熵、域名种类数峰值、非法域名的比例、异常包的比例、服务器拒绝服务率;其中,数据预处理过程依次包括规范化与归一化处理;对于特征属性的实际最小值和最大值未知的情况,采用标准分数进行标准化化处理;随后再对所有数据进行归一化处理。作为优选,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均KL散度,得到梯度,至此,数据实现降维。作为优选,对低维数据的分类操作过程包括:分类操作为划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接找出其超平面,如果线性不可分,那就映射到n+1维空间,找出超平面。作为优选,对数据使用回归进行预测过程包括:首先对分类后数据进行构建树,找到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树;其中,找出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值;基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。通过本专利技术,一种针对DNS数据预测的方法,可以对处理后的数据进行降维,通过对低维数据进行分类,然后构造出回归进行预测,可以对户上网活跃性、以及安全方面进行分析。附图说明图1示出了依据本专利技术一实施方式的针对DNS数据预测的方法流程图图2示出了依据本专利技术一实施方式的针对DNS数据预测的方法结构图图3示出了依据本专利技术一实施方式的针对DNS数据预测的方法网络组织流程图具体实施方式下文为对本专利技术实施方式的详细描述,所述实施方式在附图中已标示出,所有附图中以相同或者类似的标号表示相同或类似的组件或具有相同功能或类似功能的组件。下面通过参考附图描述的实施方式使示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或“耦接”。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。如图1所示,本专利技术一实施方式一种针对DNS数据预测的方法:101:利用采集器等工具对DNS服务器的日志数据进行收集;102:对采集的数据根据其特征值进行预处理;103:根据相似度把采集的数据进行降维处理;104:把低维空间的数据进行分类;105:对分类过后的低维数据使用回归进行预测;106:收集预测结果分析走向。在步骤101中,对日志数据进行采集包括:采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文等信息。在步骤102中,对数据的预处理操作过程包括:DNS数据的属性包括IP单元时间、DNS请求从DNS查询时间、不寻常的包共享、DNS请求失败、源端口熵、域名、信息熵、域名峰值、非法域名次数百分比峰值、、服务器拒绝服务的比例。DNS原始数据存在以下几个问题:数据的不一致、数据重复、含有噪声、数据维度高。对数据的预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。在步骤103中,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均KL散度,得到梯度,至此,数据实现降维。在步骤104中,对低维数据的分类操作过程包括:分类操作的目的是划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接找出其超平面,如果线性不可分,那就映射到n+1维空间,找出超平面,至此,可以得到超平面的表达式,也就是分类函数。低维数据得以分类。在步骤105中,对数据使用回归进行预测过程包括:首先对分类后数据进行构建树,找到本文档来自技高网
...

【技术保护点】
1.一种针对DNS数据预测的方法,其特征在于,包括以下步骤:/n利用采集器等工具对DNS服务器的日志数据进行收集;/n对采集的数据根据其特征值进行预处理;/n根据相似度把采集的数据进行降维处理;/n把低维空间的数据进行分类;/n对分类过后的低维数据使用回归进行预测;/n收集预测结果分析走向。/n

【技术特征摘要】
1.一种针对DNS数据预测的方法,其特征在于,包括以下步骤:
利用采集器等工具对DNS服务器的日志数据进行收集;
对采集的数据根据其特征值进行预处理;
根据相似度把采集的数据进行降维处理;
把低维空间的数据进行分类;
对分类过后的低维数据使用回归进行预测;
收集预测结果分析走向。


2.根据权利要求1所述方法,其特征在于,采集的信息是DNS服务器的日志,其中包括启动、重启、关闭、输出日志、报文信息。


3.根据权利要求1所述方法,其特征在于,数据预处理操作包括:
数据包括;源IP单位时间内的DNS请求次数、DNS请求次数的峰值、DNS请求失败的比例、源端口的信息熵、域名种类的信息熵、域名种类数峰值、非法域名的比例、异常包的比例、服务器拒绝服务率;其中,数据预处理过程依次包括规范化与归一化处理;对于特征属性的实际最小值和最大值未知的情况,采用标准分数进行标准化化处理;随后再对所有数据进行归一化处理。


4.根据权利要求1所述方法,其特征在于,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相...

【专利技术属性】
技术研发人员:黄韬吉星鄂新华潘恬杨帆谢人超张娇
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1