基于半监督学习的恶意域名检测方法及装置制造方法及图纸

技术编号：33633136 阅读：23 留言：0更新日期：2022-06-02 01:40

本发明专利技术提供了一种基于半监督学习的恶意域名检测方法及装置，所述方法包括：收集域名样本，构建原始样本集；针对每一域名样本抽取典型特征的特征表示；通过恶意域名标注信息，从原始样本集中提取恶意域名样本集；基于原始样本集中各域名样本的孤立分数，构建可信域名样本集；对恶意域名样本集与可信域名样本集并集后，根据是否为恶意域名样本与孤立分数赋予域名样本权重，得到加权训练样本集；基于加权训练样本集中域名样本的特征表示训练分类模型，得到恶意域检测模型；将待检测域名的特征表示输入恶意域名检测模型，得到恶意域名检测结果。本发明专利技术的恶意域名检测模型具有自动学习、高效性与普适性等特点，从而提高了恶意域名检测的准确度。名检测的准确度。名检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督学习的恶意域名检测方法及装置

[0001]本专利技术属于网络空间安全领域，涉及一种恶意域名检测模型，特别是涉及一种基于半监督学习的恶意域名检测方法及装置。

技术介绍

[0002]作为现代互联网的重要技术支撑，域名系统(DNS,domain name system)提供将域名映射到IP地址空间的服务。在为用户提供便捷和灵活的网络服务的同时，域名也被广泛地滥用在多种网络攻击中，例如，恶意软件分发、数据泄露、C&C通信、僵尸网络控制、网络钓鱼、垃圾邮件。目前，恶意域名已经作为安全分析的IOC指标，在大量真实DNS通信流量检测恶意域名，有助于发现潜在的恶意攻击，进一步组织攻击扩散，追踪和溯源攻击者，降低损失。
[0003]目前恶意域名检测领域方案可划分为三类：基于黑白名单，基于经验知识，以及基于机器学习的方案。攻击者为了实现恶意域名的高可用性，采用动态DNS策略，实现高度动态的域名到IP地址的映射，静态黑白名单防护策略不再适用；基于经验知识构建恶意域名检测规则，耗费大量人力成本，且容易被绕过。主流检...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的恶意域名检测方法，其步骤包括：收集域名样本，构建原始样本集，并针对每一域名样本抽取典型特征的特征表示；通过恶意域名标注信息，从所述原始样本集中提取恶意域名样本集；基于所述原始样本集中域名样本的孤立分数，构建可信域名样本集，其中所述孤立分数指示所述域名样本为恶意域名的置信度；对所述恶意域名样本集与可信域名样本集并集后，根据是否为恶意域名样本与所述孤立分数赋予域名样本权重，得到加权训练样本集；基于所述加权训练样本集中域名样本的所述特征表示，训练分类模型，得到恶意域名检测模型；将待检测域名的所述特征表示输入所述恶意域名检测模型，得到所述待检测域名的恶意域名检测结果。2.如权利要求1所述的方法，其特征在于，所述典型特征包括：字符特征、流量特征和Whois特征；所述字符特征包括域名长度、子域数量、特殊字符数量、数字字符数量、数字和字母的转换次数、字典词的个数中的至少一种；所述流量特征包括：IP地址变化次数、资源记录变化次数、记录解析次数的极差、域名解析的IP地址托管不同域名的数量、域名解析的IP地址所属不同国家个数、域名解析的IP地址所属不同区域个数、请求解析域名的客户端数量、请求解析域名的次数、请求解析域名的客户端请求解析的不同域名的数量中的至少一种；所述Whois特征包括是否缺少日期信息、有效注册时长、域名名称服务器的编辑距离相似性中的至少一种。3.如权利要求1所述的方法，其特征在于，计算所述原始样本集中域名样本的孤立分数，包括：1)针对所述原始样本集中域名样本d，使用多棵二叉搜索树构成孤立森林；2)根据域名样本在多棵二叉搜索树上的平均路径长c(m)，得到孤立分数其中m为原始样本集中域名样本的数量，E(h(d))为用于标准化多棵二叉搜索树上的平均路径长。4.如权利要求1所述的方法，其特征在于，所述构建可信域名样本集，包括：基于孤立分数小于孤立分数阈值的域名样本构建，其中通过以下计算所述孤立分数阈值：1)计算恶意域名样本集中域名样本的平均孤立分数，得到潜在恶意域的阈值分数α；2)计算所述原...

【专利技术属性】
技术研发人员：刘玉岭，樊昭杉，刘俊荣，韩冬旭，王青，焦浩然，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人