一种基于词法特征的恶意域名快速检测方法技术

技术编号：21369808 阅读：19 留言：0更新日期：2019-06-15 11:14

本发明专利技术公开了一种基于词法特征的恶意域名快速检测方法，包括步骤：数据标准化，将待测域名按照长度进行正则化处理；权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名。与现有技术相比，本发明专利技术不依赖在线获取域名解析数据，可以单独、快速完成恶意域名检测，为恶意域名的检测提供了一种新思路，丰富了恶意域名的检测手段。

A Fast Detection Method of Malicious Domain Names Based on Lexical Features

The invention discloses a rapid detection method of malicious domain names based on lexical features, which includes steps: data standardization, regularization of the domain names to be tested according to their length; weight calculation, by calculating the weights of the domain names to be tested, the extraction of lexical features of domain names is transformed into numerical calculation; clustering grouping, and clustering algorithm is used to divide the domain names to be tested into groups in terms of the length of the domain names. Similar groups; inter-group sorting, using the improved heap sorting algorithm to calculate the priority of each domain name group according to the sum of the weights in the group; domain name detection, according to the priority descending order, calculates the editing distance between each domain name in the domain name group and the domain name on the blacklist, and quickly determines the malicious domain name according to the size of the editing distance. Compared with the existing technology, the invention does not rely on online acquisition of domain name resolution data, and can accomplish malicious domain name detection independently and quickly. It provides a new idea for malicious domain name detection and enriches the detection means of malicious domain name.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词法特征的恶意域名快速检测方法
本专利技术涉及网络信息安全领域，尤其涉及一种基于词法特征的恶意域名快速检测方法。
技术介绍
互联网技术的快速发展给人们的工作和生活带来许多便利，同时，出于不同目的的恶意网络攻击事件也层出不穷，如针对域名系统的域名劫持、僵尸网络、远控木马等攻击。现有恶意域名检测方法大多是根据查询主机活动流量，检测流量异常DNS(DomainNameSystem)服务器的DNS查询流，实现恶意域名的识别与拦截。例如，恶意攻击者通过使用域名生成算法或域名变换技术在短时间内随机生成大量不存在的域名并发出域名解析请求，这些恶意域名解析请求最终因解析失败等原因在DNS服务器间多次转发，增加了网络带宽的占用，使得网络流量在短时间内急剧增长，根据网络流量在短时间内的异常变化对访问请求进行拦截。但基于查询主机活动流量的检测方法需要在线实时获取DNS记录和数据，成本较高，且只对受攻击服务器的恶意域名查询流进行检测，检测范围受限。
技术实现思路
为克服现有恶意域名检测方法检测范围受限，数据采集周期较长、实时性差等不足，本专利技术提出一种基于词法特征的恶意域名快速检测方法，以有效地提高恶意域名的检测效率。本专利技术的技术方案是这样实现的：一种基于词法特征的恶意域名快速检测方法，包括步骤S1：数据标准化，将待测域名按照长度进行正则化处理；S2：权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；S3：聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；S4：组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；S...

【技术保护点】
1.一种基于词法特征的恶意域名快速检测方法，其特征在于，包括步骤S1：数据标准化，将待测域名按照长度进行正则化处理；S2：权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；S3：聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；S4：组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；S5：域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名。

【技术特征摘要】
1.一种基于词法特征的恶意域名快速检测方法，其特征在于，包括步骤S1：数据标准化，将待测域名按照长度进行正则化处理；S2：权值计算，通过计算待测域名的权值，将域名词法特征的提取转化为数值计算；S3：聚类分组，利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组；S4：组间排序，利用改进的堆排序算法按照组内权值总和计算各域名小组优先级；S5：域名检测，按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离，并根据编辑距离的大小快速判断出恶意域名。2.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值，计算公式为其中，si为第i个域名标准化后的值，Li为域名长度，Lmax与Lmin分别为域名列表中域名长度最大值与最小值。3.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值，将域名词法特征的提取转化为数值计算，权值计算公式为其中，wi为域名权值，Li为域名长度，ci是与第i个域名长度值相同的域名在域名列表中出现的次数，n是经过标准化处理后的域名总数，a和b是条件常数，D是恶意域名与合法域名长度的分界经验值。4.如权利要求1所述的基于词法特征的恶意域名快速检测方法，其特征在于，步骤S3中所述的聚类分组的实现包括步骤S31：选取经过标准化处理后的n个待测样本，形成大小为n的测试集T，通过计算测试集T中每一域名的权值，构造域名权值集合W＝(w1,...,wn)；S32：利用测试集T中每一标准化后的样本值si与对应的权值wi，根据公式求解候选支持点集合P＝{(wi，u...

【专利技术属性】
技术研发人员：赵宏，常兆斌，孔东一，王伟杰，杨永娟，刘娟，党育，王孝通，刘向东，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：甘肃,62

全部详细技术资料下载我是这个专利的主人