【技术实现步骤摘要】
一种基于机器学习实现恶意域名识别的方法
本专利技术属于互联网信息安全领域,涉及域名管理、病毒和木马技术、机器学习、以及NB、MLP和XGBoost等算法。本专利技术所涉及的一种机器学习识别恶意域名的方法,采用上述技术和算法,能够实现对机器自动生成的恶意域名的准确、快速的识别。缩略语及名词解释DGA:域名生成算法是一种利用随机字符来生成C&C域名,从而逃避域名黑名单识别的技术手段。C&C服务器:远程命令和控制服务器,目标机器可以接收来自服务器的命令,从而达到服务器控制目标机器的目的,该方法常用于病毒木马控制被感染的机器。DNS:DomainNameSystem,域名系统。Jaccard系数:Jaccard相似系数(Jaccardsimilaritycoefficient)用于比较有限数据集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。XGBoost:eXtremeGradientBoosting。MLP:多层感知器。NB:朴素贝叶斯法。背景技 ...
【技术保护点】
1.本专利技术提供一种基于机器学习实现恶意域名识别的方法,其特征在于,采用机器学习技术,训练出识别恶意域名的机器学习模型组,该模型组可以准确的对恶意域名进行识别;包括机器学习模型训练单元和恶意域名识别单元,其中:/nA.机器学习模型训练单元,通过构建数据集、特征提取、模型训练,训练出可识别恶意域名的机器学习模型组;/nB.恶意域名识别单元,通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票,可实现恶意域名识别。/n
【技术特征摘要】
1.本发明提供一种基于机器学习实现恶意域名识别的方法,其特征在于,采用机器学习技术,训练出识别恶意域名的机器学习模型组,该模型组可以准确的对恶意域名进行识别;包括机器学习模型训练单元和恶意域名识别单元,其中:
A.机器学习模型训练单元,通过构建数据集、特征提取、模型训练,训练出可识别恶意域名的机器学习模型组;
B.恶意域名识别单元,通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票,可实现恶意域名识别。
2.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的构建数据集,正样本数据集使用Alexa全球排名前100万的网站域名数据,负样本数据集使用360netlab开放DGA家族数据。
3.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的提取特征并进行特征向量化,提取特征包括:N-Gram特征和文本特征。
4.如权利要求3所述的特征向量化,其特征在于,对所提取的特征进行特征向量化,标识每个特征向量的正负属性,正属性为非恶意域名,标识为“0”;负属性为恶意域名,标识为“1”。
5.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法,其特征在于,机器学习模型训练单元中的模型训练,对DGA家族数据和正样本数据分别生成两个域名集合,划分为两部分:一部分作为训练样本,另一部分作为测试样本;通过XGBoost、MLP、NB三种机器学习算法进行模型训练,模型训练包括:2-gram&NB机器学习模型、234-gram&NB机器学习模型、文本特征&NB机器学习模型、2-gram&XGBoost机器学习模型、234-gram&XGBoost机器学...
【专利技术属性】
技术研发人员:贾盛,王晓波,
申请(专利权)人:慧盾信息安全科技苏州股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。