基于半监督学习的恶意域名检测方法及装置制造方法及图纸

技术编号:33633136 阅读:12 留言:0更新日期:2022-06-02 01:40
本发明专利技术提供了一种基于半监督学习的恶意域名检测方法及装置,所述方法包括:收集域名样本,构建原始样本集;针对每一域名样本抽取典型特征的特征表示;通过恶意域名标注信息,从原始样本集中提取恶意域名样本集;基于原始样本集中各域名样本的孤立分数,构建可信域名样本集;对恶意域名样本集与可信域名样本集并集后,根据是否为恶意域名样本与孤立分数赋予域名样本权重,得到加权训练样本集;基于加权训练样本集中域名样本的特征表示训练分类模型,得到恶意域检测模型;将待检测域名的特征表示输入恶意域名检测模型,得到恶意域名检测结果。本发明专利技术的恶意域名检测模型具有自动学习、高效性与普适性等特点,从而提高了恶意域名检测的准确度。名检测的准确度。名检测的准确度。

【技术实现步骤摘要】
基于半监督学习的恶意域名检测方法及装置


[0001]本专利技术属于网络空间安全领域,涉及一种恶意域名检测模型,特别是涉及一种基于半监督学习的恶意域名检测方法及装置。

技术介绍

[0002]作为现代互联网的重要技术支撑,域名系统(DNS,domain name system)提供将域名映射到IP地址空间的服务。在为用户提供便捷和灵活的网络服务的同时,域名也被广泛地滥用在多种网络攻击中,例如,恶意软件分发、数据泄露、C&C通信、僵尸网络控制、网络钓鱼、垃圾邮件。目前,恶意域名已经作为安全分析的IOC指标,在大量真实DNS通信流量检测恶意域名,有助于发现潜在的恶意攻击,进一步组织攻击扩散,追踪和溯源攻击者,降低损失。
[0003]目前恶意域名检测领域方案可划分为三类:基于黑白名单,基于经验知识,以及基于机器学习的方案。攻击者为了实现恶意域名的高可用性,采用动态DNS策略,实现高度动态的域名到IP地址的映射,静态黑白名单防护策略不再适用;基于经验知识构建恶意域名检测规则,耗费大量人力成本,且容易被绕过。主流检测方案大多采用机器学习方法,分析和提取有效检测特征,自动学习复杂的检测模型,捕获恶意域名在字符组成、行为模式、通信关联和注册信息上的差异性。然而,机器学习方案在恶意域名检测领域的应用还受限于Alexa列表排名靠前的流行域中混杂恶意域、良性域和恶意域样本类别失衡等问题。
[0004]Alexa列表排名靠前的流行域中混杂恶意域:现有的恶意域名检测方法多数使用Alexa列表中排名靠前的流行域名作为良性域名,例如专利“一种实现恶意域名识别的方法及装置”(专利申请号:201410155997.8,公开号:CN105024969A)利用Alexa列表中排名靠前2000的域名作为白名单,并用于训练基于支持向量机的恶意域名可信判断模型;此外,专利“多维度检测恶意域名的方法”(专利申请号:201911393883.6,公开号:CN111245784A)利用Alexa网站排名构建标注样本集,白名单域名取自Alexa网站排名前10000的网站域名。然而,由于Alexa列表是按照受欢迎程度而非安全性进行排名,同时Alexa列表一般仅统计二级域名,而不提供有关子域的任何信息,一个受欢迎程度较高的二级域名可能会提供代理访问其他被列入黑名单的域,因此将排名靠前的流行域名作为良性域的简单标注方案,会导致标注样本集的良性域名存在较多的混杂样本,不纯净的标注样本集会对恶意域名检测精度造成较大影响。
[0005]良性域和恶意域样本类别失衡:在真实环境中,恶意攻击活动隐藏在众多正常DNS通信中,恶意域的数目远少于良性域,收集真实的DNS流量数据会构建一个类别不平衡的数据集。直接在不平衡数据集上进行机器学习模型的训练,会导致分类器更加关注多数类即良性域的分类性能,而忽略对少数类即恶意域的刻画能力,显然与恶意域检测的目标相悖。目前主要有两种解决方案:从数据级别解决,典型策略有欠采样和过采样的方案,然而欠采样丢弃多数类别样本会造成部分样本标注信息的损失,过采样通过复制少数类别样本可能引入噪声和导致过拟合问题;从算法级别解决,目前有成本敏感方案,给不同的误分类成本
分配给不同的类别,但需要掌握良性域和恶意域的数据分布的先验知识,不具有普适性。
[0006]中国专利申请CN113516189A虽然公开一种基于两阶段随机森林算法的网站恶意用户预测方法,用以对训练集数据分配权重,但其相当于变相提出一种随机森林构造方案,主要在于通过boost方案训练基分类器——决策树模型,用两阶段的决策树模型构成最终的随机森林,无法支持仅基于一类标签,训练二分类异常样本检测模型。

技术实现思路

[0007]为解决上述技术问题,本专利技术提出了一种基于半监督学习的恶意域名检测方法及装置,能够仅使用少量的恶意域标签构建恶意域名检测模型,从训练样本集构造角度解决标注信息不足和良性域标注不可信问题;同时通过定制样本权重,构造成本敏感的目标函数,改善不平衡的恶意域和良性域训练样本对于检测模型的影响。
[0008]本专利技术的
技术实现思路
包括:
[0009]一种基于半监督学习的恶意域名检测方法,其步骤包括:
[0010]收集域名样本,构建原始样本集,并针对每一域名样本抽取典型特征的特征表示;
[0011]通过恶意域名标注信息,从所述原始样本集中提取恶意域名样本集;
[0012]基于所述原始样本集中各域名样本的孤立分数,构建可信域名样本集,其中所述孤立分数指示所述域名样本为恶意域名的置信度;
[0013]对所述恶意域名样本集与可信域名样本集并集后,根据是否为恶意域名样本与所述孤立分数赋予域名样本权重,得到加权训练样本集;
[0014]基于所述加权训练样本集中域名样本的所述特征表示,训练分类模型,得到恶意域名检测模型;
[0015]将待检测域名的所述特征表示输入所述恶意域名检测模型,得到所述待检测域名的恶意域名检测结果。
[0016]进一步地,所述典型特征包括:字符特征、流量特征和Whois特征。
[0017]进一步地,所述字符特征包括域名长度、子域数量、特殊字符数量、数字字符数量、数字和字母的转换次数、字典词的个数中的至少一种。
[0018]进一步地,所述流量特征包括:IP地址变化次数、资源记录变化次数、记录解析次数的极差、域名解析的IP地址托管不同域名的数量、域名解析的IP地址所属不同国家个数、域名解析的IP地址所属不同区域个数、请求解析域名的客户端数量、请求解析域名的次数、请求解析域名的客户端请求解析的不同域名的数量中的至少一种。
[0019]进一步地,所述Whois特征包括是否缺少日期信息、有效注册时长、域名名称服务器的编辑距离相似性中的至少一种。
[0020]进一步地,计算所述原始样本集中域名样本的孤立分数,包括:
[0021]1)针对所述原始样本集中域名样本d,使用多棵二叉搜索树构成孤立森林;
[0022]2)根据域名样本在多棵二叉搜索树上的平均路径长c(m),得到孤立分数其中m为原始样本集中域名样本的数量,E(h(d))为用于标准化多棵二叉搜索树上的平均路径长。
[0023]进一步地,所述构建可信域名样本集,包括:基于孤立分数小于孤立分数阈值的域
名样本构建,其中通过以下计算所述孤立分数阈值:
[0024]1)计算恶意域名样本集中域名样本的平均孤立分数,得到潜在恶意域的阈值分数α;
[0025]2)计算所述原始样本集中域名样本的平均孤立分数,得到潜在良性域的阈值分数
[0026]3)比较阈值分数α与阈值分数并将较小的阈值分数作为所述孤立分数阈值。
[0027]进一步地,计算所述孤立分数阈值,还包括:设置一阈值可调节超参数,用于调节所述孤立分数阈值。
[0028]进一步地,所述根据是否为恶意域名样本与所述孤立分数赋予域名样本权重,包括:
[0029]1)将训练样本集中恶意域名样本的权重设置为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的恶意域名检测方法,其步骤包括:收集域名样本,构建原始样本集,并针对每一域名样本抽取典型特征的特征表示;通过恶意域名标注信息,从所述原始样本集中提取恶意域名样本集;基于所述原始样本集中域名样本的孤立分数,构建可信域名样本集,其中所述孤立分数指示所述域名样本为恶意域名的置信度;对所述恶意域名样本集与可信域名样本集并集后,根据是否为恶意域名样本与所述孤立分数赋予域名样本权重,得到加权训练样本集;基于所述加权训练样本集中域名样本的所述特征表示,训练分类模型,得到恶意域名检测模型;将待检测域名的所述特征表示输入所述恶意域名检测模型,得到所述待检测域名的恶意域名检测结果。2.如权利要求1所述的方法,其特征在于,所述典型特征包括:字符特征、流量特征和Whois特征;所述字符特征包括域名长度、子域数量、特殊字符数量、数字字符数量、数字和字母的转换次数、字典词的个数中的至少一种;所述流量特征包括:IP地址变化次数、资源记录变化次数、记录解析次数的极差、域名解析的IP地址托管不同域名的数量、域名解析的IP地址所属不同国家个数、域名解析的IP地址所属不同区域个数、请求解析域名的客户端数量、请求解析域名的次数、请求解析域名的客户端请求解析的不同域名的数量中的至少一种;所述Whois特征包括是否缺少日期信息、有效注册时长、域名名称服务器的编辑距离相似性中的至少一种。3.如权利要求1所述的方法,其特征在于,计算所述原始样本集中域名样本的孤立分数,包括:1)针对所述原始样本集中域名样本d,使用多棵二叉搜索树构成孤立森林;2)根据域名样本在多棵二叉搜索树上的平均路径长c(m),得到孤立分数其中m为原始样本集中域名样本的数量,E(h(d))为用于标准化多棵二叉搜索树上的平均路径长。4.如权利要求1所述的方法,其特征在于,所述构建可信域名样本集,包括:基于孤立分数小于孤立分数阈值的域名样本构建,其中通过以下计算所述孤立分数阈值:1)计算恶意域名样本集中域名样本的平均孤立分数,得到潜在恶意域的阈值分数α;2)计算所述原...

【专利技术属性】
技术研发人员:刘玉岭樊昭杉刘俊荣韩冬旭王青焦浩然
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1