一种恶意域名的识别方法及系统技术方案

技术编号：24708321 阅读：55 留言：0更新日期：2020-07-01 00:01

本申请实施例公开了一种恶意域名的识别方法及系统，用于提升对恶意域名的识别率。本申请实施例方法包括：将获取到的恶意域名执行聚类分组，得到多个域名簇；对所述多个域名簇的各级域名进行处理，以抽取出与每个域名簇对应的恶意域名的正则表达式；对所述正则表达式进行测试，以获取强正则表达式，所述强正则表达式为置信度及命中率分别大于对应预设阈值的正则表达式；利用所述强正则表达式对恶意域名进行识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种恶意域名的识别方法及系统
本申请涉及数据安全
，尤其涉及一种恶意域名的识别方法及系统。
技术介绍
恶意域名指的是某个域名下的至少一个URL指向一个恶意的资源，使得用户在访问该恶意资源时，用户的财产信息或计算机系统数据遭受一定的安全风险。当前获取恶意域名的的主要方法是采用黑名单技术。黑名单实现简单，理解容易，但是很容易产生漏判，同时在产生黑名单的过程中也会产生漏判，造成的后果就是防御系统容易被绕过。而如何提升恶意域名的识别率，是亟待解决的一个问题。
技术实现思路
本申请实施例提供了一种恶意域名的识别方法及系统，用于根据恶意域名的相似性，从其中抽取出具有强泛化能力的正则表达式，并通过强正则表达式对恶意域名进行匹配及识别，以提升恶意域名的识别率。本申请实施例第一方面提供了一种恶意域名的识别方法，包括：将获取到的恶意域名执行聚类分组，得到多个域名簇；对所述多个域名簇的各级域名进行处理，以抽取出与每个域名簇对应的恶意域名的正则表达式；对所述正则表达式进行测试...

【技术保护点】
1.一种恶意域名的识别方法，其特征在于，所述方法包括：/n将获取到的恶意域名执行聚类分组，得到多个域名簇；/n对所述多个域名簇的各级域名进行处理，以抽取出与每个域名簇对应的恶意域名的正则表达式；/n对所述正则表达式进行测试，以获取强正则表达式，所述强正则表达式为置信度及命中率分别大于对应预设阈值的正则表达式；/n利用所述强正则表达式对恶意域名进行识别。/n

【技术特征摘要】
1.一种恶意域名的识别方法，其特征在于，所述方法包括：
将获取到的恶意域名执行聚类分组，得到多个域名簇；
对所述多个域名簇的各级域名进行处理，以抽取出与每个域名簇对应的恶意域名的正则表达式；
对所述正则表达式进行测试，以获取强正则表达式，所述强正则表达式为置信度及命中率分别大于对应预设阈值的正则表达式；
利用所述强正则表达式对恶意域名进行识别。

2.根据权利要求1所述的方法，其特征在于，所述将获取到的恶意域名执行聚类分组，得到多个域名簇，包括：
将获取到的恶意域名执行域名向量化，以将所述恶意域名映射到向量空间；
将向量化后的恶意域名分别执行域名的粗粒度聚类分组及域名的细粒度聚类分组，以得到所述多个域名簇，其中，所述粗粒度聚类分组包括K-means聚类算法、层次聚类算法及IP聚类算法中的至少一种，所述细粒度聚类分组包括计算字符串的相似度矩阵。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个域名簇的各级域名进行处理，以抽取出与每个域名簇对应的恶意域名的正则表达式，包括：
对所述多个域名簇执行过滤，以获取具有相同等级数量的域名；
分别对各级域名进行数值统计，以抽取出各级域名中的高频字段；
根据所述高频字段，拼装出与每个域名簇对应的恶意域名的正则表达式。

4.根据权利要求1所述的方法，其特征在于，所述置信度通过第一公式进行计算，其中，所述第一公式为：

其中，所述score表示置信度，所述n真表示训练库中真实的恶意域名数量，所述N测表示所述强正则表达式在训练库中识别的恶意域名的数量；
所述命中率通过第二公式进行计算，其中，所述第二公式为：

其中，所述ratio表示命中率，所述TP表示所述强正则表达式在训练数据库中命中黑库中的条目数，所述FP表示所述强正则表达式在训练数据库命中白库中的条目数。

5.根据权利要求1至4中任...

【专利技术属性】
技术研发人员：马长春，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人