一种基于词法特征的恶意域名快速检测方法技术

技术编号:21369808 阅读:19 留言:0更新日期:2019-06-15 11:14
本发明专利技术公开了一种基于词法特征的恶意域名快速检测方法,包括步骤:数据标准化,将待测域名按照长度进行正则化处理;权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。与现有技术相比,本发明专利技术不依赖在线获取域名解析数据,可以单独、快速完成恶意域名检测,为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段。

A Fast Detection Method of Malicious Domain Names Based on Lexical Features

The invention discloses a rapid detection method of malicious domain names based on lexical features, which includes steps: data standardization, regularization of the domain names to be tested according to their length; weight calculation, by calculating the weights of the domain names to be tested, the extraction of lexical features of domain names is transformed into numerical calculation; clustering grouping, and clustering algorithm is used to divide the domain names to be tested into groups in terms of the length of the domain names. Similar groups; inter-group sorting, using the improved heap sorting algorithm to calculate the priority of each domain name group according to the sum of the weights in the group; domain name detection, according to the priority descending order, calculates the editing distance between each domain name in the domain name group and the domain name on the blacklist, and quickly determines the malicious domain name according to the size of the editing distance. Compared with the existing technology, the invention does not rely on online acquisition of domain name resolution data, and can accomplish malicious domain name detection independently and quickly. It provides a new idea for malicious domain name detection and enriches the detection means of malicious domain name.

【技术实现步骤摘要】
一种基于词法特征的恶意域名快速检测方法
本专利技术涉及网络信息安全领域,尤其涉及一种基于词法特征的恶意域名快速检测方法。
技术介绍
互联网技术的快速发展给人们的工作和生活带来许多便利,同时,出于不同目的的恶意网络攻击事件也层出不穷,如针对域名系统的域名劫持、僵尸网络、远控木马等攻击。现有恶意域名检测方法大多是根据查询主机活动流量,检测流量异常DNS(DomainNameSystem)服务器的DNS查询流,实现恶意域名的识别与拦截。例如,恶意攻击者通过使用域名生成算法或域名变换技术在短时间内随机生成大量不存在的域名并发出域名解析请求,这些恶意域名解析请求最终因解析失败等原因在DNS服务器间多次转发,增加了网络带宽的占用,使得网络流量在短时间内急剧增长,根据网络流量在短时间内的异常变化对访问请求进行拦截。但基于查询主机活动流量的检测方法需要在线实时获取DNS记录和数据,成本较高,且只对受攻击服务器的恶意域名查询流进行检测,检测范围受限。
技术实现思路
为克服现有恶意域名检测方法检测范围受限,数据采集周期较长、实时性差等不足,本专利技术提出一种基于词法特征的恶意域名快速检测方法,以有效地提高恶意域名的检测效率。本专利技术的技术方案是这样实现的:一种基于词法特征的恶意域名快速检测方法,包括步骤S1:数据标准化,将待测域名按照长度进行正则化处理;S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。进一步地,步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,如公式(1)所示,其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。进一步地,步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算如公式(2)所示,其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。进一步地,步骤S3中所述的聚类分组的实现包括步骤S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式(3)求解候选支持点集合P={(wi,ui)|i=1,...,n},其中,μi(i=1,...,n)是在经过标准化的(s1,...,sn)上选取的候选支持点,wi(i=1,...,n)为域名权值;S33:将候选支持点集合P中的每一组候选支持点带入公式(4)来寻找每一小组中的最优支持点,其中,xi(i=1,...,n)是在候选支持点中取得的最优支持点,ci是与第i个域名长度值相同的域名在域名列表中出现的次数;S34:将找到的最优支持点组合成支持点集合ν={x1,...,xm},通过公式(5)计算测试集T中每一待测域名si与支持点集合ν中最优支持点xj(j=1,...,m,m<n)之间的距离。进一步地,步骤S4所述的组间排序实现包括步骤S41:根据优先级降序序列构建成一个小顶堆;S42:待堆顶最小元素取出后,比较当前空缺节点的左右孩子节点,小者放入堆顶;S43:比较子树中空缺位置的左右孩子节点大小,小者进入空缺位置;S44:重复步骤S42和S43,直到堆顶节点为空。进一步地,步骤S5所述的编辑距离计算是通过插入、删除、替换操作计算两个域名字符串序列的最小编辑距离,如公式(6)所示,其中,d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1分别表示编辑过程中域名字符串的插入、删除、替换等操作。进一步地或更进一步地,步骤S5所述的恶意域名检测是根据各域名小组中每一域名与域名黑名单样本中各域名之间的编辑距离值是否符合预设的判定条件分别判断对应所述域名是否是恶意域名,所述的域名黑名单样本为通过开源渠道获取的恶意域名。本专利技术的有益效果在于,与现有技术相比,为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段。本专利技术不依赖在线获取域名解析数据,可以单独、快速完成恶意域名检测。附图说明图1为本专利技术一种基于词法特征的恶意域名快速检测方法流程图;图2为本专利技术一种基于词法特征的恶意域名快速检测方法的系统结构示意图;图3为本专利技术一种基于词法特征的恶意域名快速检测方法详细的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的一种基于词法特征的恶意域名快速检测方法总体原理示意如图1和图2所示,本专利技术的技术方案思路是:通过将待测域名按照长度进行正则化处理后赋予权值,然后利用聚类算法将待测域名完成分类,其次,结合改进的堆排序算法构建组间优先级,按照组间优先级依次计算小组内每一域名与黑名单上域名之间的编辑距离,最后,根据编辑距离的大小快速识别出恶意域名。如图3所示,本专利技术的一种基于词法特征的恶意域名快速检测方法,包括以下步骤S1:数据标准化,将待测域名按照长度进行正则化处理;其中,所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,如公式(1)所示,其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算,所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算如公式(2)所示,其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组,其中,所述的聚类分组是采用寻优的思想将经过权值计算的待测域名划分成组内域名长度相似的多个小组。对于前述聚类分组步骤的主要流程为:S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式(3)求解候选支持点集合P={(wi,ui)|i=1,...,n};其中,μi(i=1,...,n)是在经过标准化的(s1,...,sn)上选取的候选支持点,wi(i=1,...,n)为域名权值。S33:将候选支持点集合P中的每一本文档来自技高网...

【技术保护点】
1.一种基于词法特征的恶意域名快速检测方法,其特征在于,包括步骤S1:数据标准化,将待测域名按照长度进行正则化处理;S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。

【技术特征摘要】
1.一种基于词法特征的恶意域名快速检测方法,其特征在于,包括步骤S1:数据标准化,将待测域名按照长度进行正则化处理;S2:权值计算,通过计算待测域名的权值,将域名词法特征的提取转化为数值计算;S3:聚类分组,利用聚类算法将待测域名划分成组内域名在长度上相似的多个小组;S4:组间排序,利用改进的堆排序算法按照组内权值总和计算各域名小组优先级;S5:域名检测,按照优先级降序依次计算域名小组中每一域名与黑名单上域名之间的编辑距离,并根据编辑距离的大小快速判断出恶意域名。2.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S1所述的正则化处理是采用max-min准则将每一域名长度值转化为[0,1]区间中的数值,计算公式为其中,si为第i个域名标准化后的值,Li为域名长度,Lmax与Lmin分别为域名列表中域名长度最大值与最小值。3.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S2所述的权值计算是通过计算待测域名列表中每条域名的权值,将域名词法特征的提取转化为数值计算,权值计算公式为其中,wi为域名权值,Li为域名长度,ci是与第i个域名长度值相同的域名在域名列表中出现的次数,n是经过标准化处理后的域名总数,a和b是条件常数,D是恶意域名与合法域名长度的分界经验值。4.如权利要求1所述的基于词法特征的恶意域名快速检测方法,其特征在于,步骤S3中所述的聚类分组的实现包括步骤S31:选取经过标准化处理后的n个待测样本,形成大小为n的测试集T,通过计算测试集T中每一域名的权值,构造域名权值集合W=(w1,...,wn);S32:利用测试集T中每一标准化后的样本值si与对应的权值wi,根据公式求解候选支持点集合P={(wi,u...

【专利技术属性】
技术研发人员:赵宏常兆斌孔东一王伟杰杨永娟刘娟党育王孝通刘向东
申请(专利权)人:兰州理工大学
类型:发明
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1