一种基于机器学习实现恶意域名识别的方法技术

技术编号：24293537 阅读：71 留言：0更新日期：2020-05-26 20:54

本发明专利技术提供一种基于机器学习实现恶意域名识别的方法，其特征在于，采用机器学习技术，训练出识别恶意域名的机器学习模型组，该模型组可以准确的对恶意域名进行识别；包括机器学习模型训练单元和恶意域名识别单元。

A method of malicious domain name recognition based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习实现恶意域名识别的方法
本专利技术属于互联网信息安全领域，涉及域名管理、病毒和木马技术、机器学习、以及NB、MLP和XGBoost等算法。本专利技术所涉及的一种机器学习识别恶意域名的方法，采用上述技术和算法，能够实现对机器自动生成的恶意域名的准确、快速的识别。缩略语及名词解释DGA：域名生成算法是一种利用随机字符来生成C&C域名，从而逃避域名黑名单识别的技术手段。C&C服务器：远程命令和控制服务器，目标机器可以接收来自服务器的命令，从而达到服务器控制目标机器的目的，该方法常用于病毒木马控制被感染的机器。DNS：DomainNameSystem，域名系统。Jaccard系数：Jaccard相似系数(Jaccardsimilaritycoefficient)用于比较有限数据集之间的相似性与差异性，Jaccard系数值越大，样本相似度越高。XGBoost：eXtremeGradientBoosting。MLP：多层感知器。NB：朴素贝叶斯法。背景技...

【技术保护点】
1.本专利技术提供一种基于机器学习实现恶意域名识别的方法，其特征在于，采用机器学习技术，训练出识别恶意域名的机器学习模型组，该模型组可以准确的对恶意域名进行识别；包括机器学习模型训练单元和恶意域名识别单元，其中：/nA.机器学习模型训练单元，通过构建数据集、特征提取、模型训练，训练出可识别恶意域名的机器学习模型组；/nB.恶意域名识别单元，通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票，可实现恶意域名识别。/n

【技术特征摘要】
1.本发明提供一种基于机器学习实现恶意域名识别的方法，其特征在于，采用机器学习技术，训练出识别恶意域名的机器学习模型组，该模型组可以准确的对恶意域名进行识别；包括机器学习模型训练单元和恶意域名识别单元，其中：
A.机器学习模型训练单元，通过构建数据集、特征提取、模型训练，训练出可识别恶意域名的机器学习模型组；
B.恶意域名识别单元，通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票，可实现恶意域名识别。

2.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的构建数据集，正样本数据集使用Alexa全球排名前100万的网站域名数据，负样本数据集使用360netlab开放DGA家族数据。

3.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的提取特征并进行特征向量化，提取特征包括：N-Gram特征和文本特征。

4.如权利要求3所述的特征向量化，其特征在于，对所提取的特征进行特征向量化，标识每个特征向量的正负属性，正属性为非恶意域名，标识为“0”；负属性为恶意域名，标识为“1”。

5.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的模型训练，对DGA家族数据和正样本数据分别生成两个域名集合，划分为两部分：一部分作为训练样本，另一部分作为测试样本；通过XGBoost、MLP、NB三种机器学习算法进行模型训练，模型训练包括：2-gram&NB机器学习模型、234-gram&NB机器学习模型、文本特征&NB机器学习模型、2-gram&XGBoost机器学习模型、234-gram&XGBoost机器学...

【专利技术属性】
技术研发人员：贾盛，王晓波，
申请(专利权)人：慧盾信息安全科技苏州股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人