【技术实现步骤摘要】
基于可信度的互联网恶意域名检测方法
本专利技术属于计算机网络空间安全领域。
技术介绍
随着网络的发展,网络空间安全已受到各方面的重视,而层出不穷的网络空间安全威胁也成为了人们不得不面对的新挑战。急速增长的针对性网络攻击直接催生了域名服务;而域名的分析一直是网络空间安全领域的热点问题,能够让威胁更加清晰可见,更快速响应针对性攻击,加强策略规划和投资,同时有效缓解目前在对抗网络攻击时的攻防不对等问题,也为网络态势实时感知提供了技术支持。近年来,我国网络空间安全威胁数量激增。而我国对恶意域名的分析仍然存在处理灵活性不足、利用率不高、应用型不强等问题。因此,国家急需一个能够跟上域名更新换代速度的处理方法,做到对域名的有效防御。
技术实现思路
本专利技术目的是为了解决在域名与日俱增的情况下,传统的分析手段难以抵御新型域名并且模型退化程度明显,导致对域名的预测无法得到全面准确的结果的问题,提供一种基于可信度的互联网恶意域名检测方法。本专利技术选择了多个域名的特征值,利用多个机器学习模型分析,改变传统基于阈值的分析方式,实现对域名的分析;利用统计学习算法,给出每个模型的可信度,通过一定方法实现模型的融合;通过实时监控用户访问网站的域名信息,判断其恶意性加入情报库中。本专利技术的技术方案基于可信度的互联网恶意域名检测方法,包括如下步骤:基本概念:(1)域名:某一台计算机或计算机组的字符型标识;(2)机器学习:研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新 ...
【技术保护点】
1.基于可信度的互联网恶意域名检测方法,其特征在于,包括:/n第1、利用多个模型独立的对域名恶意情况进行预测,模型对于测试数据的预测结果和实际恶意情况作为第2步的输入,包括如下步骤:/n第1.1步、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,对训练集和校准集的域名进行静态分析,获取域名的特征值,其中包括:域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数和k-grams;/n第1.2步、多个机器学习模型算法各自独立的对训练集的域名的特征值进行拟合,得到基于域名特征值的机器学习数据模型,并对校准集数据的恶意情况进行预测;/n第2、运用IVAPD统计学习算法,对先前生成的机器学习数据模型的预测结果计算模型的可信度;/n第3、多个模型进行协同防御,即对第2步得到的模型可信度利用简单投票的方法对每个待测域名的恶意情况进行投票,来确定待测域名是否恶意。/n
【技术特征摘要】
1.基于可信度的互联网恶意域名检测方法,其特征在于,包括:
第1、利用多个模型独立的对域名恶意情况进行预测,模型对于测试数据的预测结果和实际恶意情况作为第2步的输入,包括如下步骤:
第1.1步、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,对训练集和校准集的域名进行静态分析,获取域名的特征值,其中包括:域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数和k-grams;
第1.2步、多个机器学习模型算法各自独立的对训练集的域名的特征值进行拟合,得到基于域名特征值的机器学习数据模型,并对校准集数据的恶意情况进行预测;
第2、运用IVAPD统计学习算法,对先前生成的机器学习数据模型的预测结果计算模型的可信度;
第3、多个模型进行协同防御,即对第2步得到的模型可信度利用简单投票的方法对每个待测域名的恶意情况进行投票,来确定待测域名是否恶意。
2.根据权利要求1所述的基于可信度的互联网恶意域名检测方法,其特征在于,第1.1步包括:
第1.1.1、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,对于训练集和校准集的所有域名,统计域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数,这些特征提取了构成域名所使用的字母数字所产生的形式的静态规律;
第1.1.2、与此同时,还需要统计训练集和校准集的所有域名的1gram、2gram、3gram、4gram、5gram的特征,这些特征统计的是频率较高的单个字母、两个字母一直到5个字母在域名中的存在次数。
3.根据权利要求1所述的基于可信度的互联网恶意域名检测方法,其特征在于,第1.2步包括:
第1.2.1、运用bagging、随机森林、lstm、逻辑回归、SVM、xgboost多个机器学习算法,对域名的特征值进行拟合:
①域名特征值集合X:包含n个域名特征值xj,j∈{1,2,...,n},X={x1,...,xn};
②机器学习算法集合G:包含m个机器学习算法fk,k∈{1,2,...,m},G={f1,...,fm};该算法集合的输入均为第1.1步中获取的训练集域名12个静态特征值,经拟合得到训练后的m个机器学习模型。
4.根据权利要求3所述的基于可信度的互联网恶意域名检测方法,其特征在于,第2步包括:
第2.1、每一个机器学习算法,对域名特征值集合X,能根据模型t,利用IVAPD算法,计算出结果P0(U)和P1(U);通过P0(U)和P1(U),利用公式计算得到IVAPD得分P(U),即为可信度;根据可信度P(U),来直接对比模型预测结果的质量选取可信度较高的m个模型;
第2.2、IVAPD得分的输入:拟合后的m个机器学习模型Ttest、校准域名集合Ycal...
【专利技术属性】
技术研发人员:王志,李涵,林宇量,詹婧,于涛,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。