阴影域检测模型、检测模型建立方法、检测方法及系统技术方案

技术编号:24763858 阅读:25 留言:0更新日期:2020-07-04 11:03
本发明专利技术涉及阴影域检测技术领域,特别提供了一种阴影域检测模型、检测模型建立方法、检测方法及系统,根据现有样本搜集方法及特征提取方法搜集样本和阴影域特征,将阴影域样本和合法域样本分别加标签后合并,通过两种训练方式,训练得到两个模型,再将两个模型按照平均法,得到最终的检测模型,当某网页正在被访问时,如果该网页是在合法域名下建立的非法子域名,即恶意域名,本检测模型能够迅速进行判断,并且将提示信息同时发给网页所有者和检测模型的用户,使网页所有者尽快对其所拥有的子域名进行排查,避免阴影域造成的攻击。

Shadow region detection model, detection model establishment method, detection method and system

【技术实现步骤摘要】
阴影域检测模型、检测模型建立方法、检测方法及系统
本专利技术涉及阴影域检测
,特别提供了一种阴影域检测模型、检测模型建立方法、检测方法及系统。
技术介绍
域名就是上网单位的名称,是一个通过计算机登上网络的单位在该网中的地址。一个公司如果希望在网络上建立自己的主页,就必须取得一个域名,域名也是由若干部分组成,包括数字和字母。通过该地址,人们可以在网络上找到所需的详细资料。域名是上网单位和个人在网络上的重要标识,起着识别作用,便于他人识别和检索某一企业、组织或个人的信息资源,从而更好地实现网络上的资源共享。除了识别功能外,在虚拟环境下,域名还可以起到引导、宣传、代表等作用。域名如今经常被人们在非法活动中利用,但是传统的非法活动是通过创建新的域名来实施非法行为,但是,创建的新的域名在实施非法行为时很容易就被识别到,为了逃避检测系统的识别,不法分子改变策略,不是创建新的域名,而是通过在合法域名下建立非法的子域名,即阴影域,来实施非法活动,阴影域将帐户流量从消费者流量中转移到现有的、注册的以及其他可信任的Web域中。一旦获得访问权限,不法分子便会注册大量未经授权的子域,这些子域与众所周知的域相关联并且通常不遵循任何可识别的模式,因此难以检测。不仅如此,阴影域不会影响父域或该域上托管的任何内容,从而使其操作更加隐蔽。犯罪者使用这些欺诈性子域进行恶意活动,包括分发恶意软件,注入漏洞利用工具包或将用户静默重定向到承载恶意元素的其他网站。因为非法的子域名继承了合法域名的信任,所以目前的检测系统不能很好的检测出非法的子域名,所以亟需一个新的检测模型,用于检测阴影域。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种阴影域检测模型、检测模型建立方法、检测方法及系统,能够对在合法域名下建立的阴影域子域名进行检测,填补了阴影域检测的空白。本专利技术是这样实现的,提供一种阴影域检测模型建立方法,包括如下步骤:1)搜集阴影域数据样本和合法域数据样本,提取阴影域特征;2)对提取的阴影域特征进行Logistic回归建模,选择输出P值小于0.05的特征,构建为F特征集合;3)对阴影域数据样本提取F特征集合,之后对阴影域数据样本和合法域数据样本分别加标签后合并,再随机划分为两个数据集,即数据集A和数据集B;4)对数据集A进行三次随机打乱,得到数据集A-1、数据集A-2和数据集A-3,分别对数据集A-1、数据集A-2和数据集A-3通过rbf-svm分类器进行训练,得到三个模型,即modelA-1、modelA-2和modelA-3,对modelA-1、modelA-2和modelA-3采用平均法,得到M1模型;5)采用stacking模型构建M2,即对数据集B分别采用随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型作为第一层进行预测,分别得到四个预测结果,将四个预测结果作为第二层逻辑回归模型的输入,对四个预测结果进行训练预测,输出结果为M2模型;6)根据公式Mfinal=0.5*M1+0.5*M2,即根据平均法,得到Mfinal,即得到阴影域检测的模型。进一步地,步骤1)中,利用人为网上搜索的方式,搜集阴影域数据样本,合法域数据样本包括热门流行域名和分非热门流行域名。进一步地,提取的阴影域特征分为四类,即子域名用途特征、子域名托管特征、子域名活动特征和子域名名称特征,其中子域名用途特征包括顶点域与第一个非www子域名之间建立的间隔、同一个顶点域下热门子域名的比例、同一IP下共同托管的热门子域名的比例、子域名的网络连通性、同一顶点域下子域名的连通性、同一IP下共同托管的子域名的网络连通性;子域名托管特征包括子域名托管IP的偏差、共同托管在同一IP上的子域的平均IP偏差、共同托管子域名的相关比率、共享顶点数的相关比率;子域名活动特征包括初次出现时间的分布、同一IP的子域之间的分辨率计数分布、同一IP子域之间的分辨率计数的倒数中位数、同一IP的子域之间的活动天数分布、同一IP子域中活动天数的倒数中位数;子域名名称包括域级别的多样性和子域名长度。进一步地,步骤4)中,使用随机排列函数(shuffle)对所述数据集A进行三次随机打乱。进一步地,将所述数据集B划分为K折,针对随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型分别进行K次训练,每次训练保留K分之一的样本用作训练时的检验数据,训练完成后利用检验数据进行预测,一个模型会对应输出和5个预测结果,将这5个结果取平均,得到四个模型运行5次之后的平均值,即四个预测结果,利用逻辑回归模型对四个预测结果进行训练预测,输出结果为M2模型。本专利技术还提供一种利用上述的阴影域检测模型建立方法建立的阴影域检测模型。本专利技术还提供一种利用上述的阴影域检测模型检测阴影域的方法,包括如下步骤:a)获取正在被访问的网页域名,提取域名特征;b)将获取到的用域名特征代表的该域名输入到上述建立的模型中,输出结果,检测该域名是合法域还是阴影域;c)若为阴影域,则将检测结果发送给网页拥有者和检测模型的用户,例如以邮件的形式发送。本专利技术还提供一种阴影域检测系统,包括如下模块:域名特征提取模块,用来获取用户正在访问的网页域名,提取域名特征;域名检测模块,用于将获取到的用域名特征代表的该域名输入到上述建立的模型中,输出结果,检测该域名是合法域还是阴影域;提示模块,用于则将检测结果发送给网页拥有者和检测模型的用户。与现有技术相比,本专利技术的优点在于:提供一种新的阴影域检测模型的建立方法,一方面根据rbf-svm分类器训练一个模型M1,另一方面根据集成方法训练一个模型M2,将M1和M2利用平均法得到最终的检测模型,首先开创了一种新的阴影域检测模型建立方法,其次是利用两种训练模型的平均得到的最终的检测模型,降低了每个检测模型的检测错报率,即提高了准确率。另外本专利技术提供了一个阴影域的检测模型,能够对在合法域名下建立的阴影域子域名进行检测,填补了阴影域检测的空白,即当某网页被访问时,如果该网页是在合法域名下建立的非法子域名,即恶意域名,本检测模型能够迅速进行判断,并且将检测结果同时发送给网页拥有者及检测模型的用户,及早发现阴影域,防止其造成严重的后果。附图说明下面结合附图及实施方式对本专利技术作进一步详细的说明:图1为本专利技术提供的检测模型建立流程示意图;图2为利用本专利技术建立的检测模型检测阴影域的流程图;图3为本专利技术提供的阴影域检测系统模块图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。参考图1,本专利技术提供一种阴影域检测模型建立方法,包括如下步骤:1)搜集阴影域数据样本和合法域数据样本,提取阴影域特征;本专利技术使用的搜集阴影域数据样本和合法域数本文档来自技高网
...

【技术保护点】
1.一种阴影域检测模型建立方法,其特征在于,包括如下步骤:/n1)搜集阴影域数据样本和合法域数据样本,提取阴影域特征;/n2)对提取的阴影域特征进行Logistic回归建模,选择输出P值小于0.05的特征,构建为F特征集合;/n3)对阴影域数据样本提取F特征集合,之后对阴影域数据样本和合法域数据样本分别加标签后合并,再随机划分为两个数据集,即数据集A和数据集B;/n4)对数据集A进行三次随机打乱,得到数据集A-1、数据集A-2和数据集A-3,分别对数据集A-1、数据集A-2和数据集A-3通过rbf-svm分类器进行训练,得到三个模型,即modelA-1、modelA-2和modelA-3,对modelA-1、modelA-2和modelA-3采用平均法,得到M1模型;/n5)采用stacking模型构建M2,即对数据集B分别采用随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型作为第一层进行预测,分别得到四个预测结果,将四个预测结果作为第二层逻辑回归模型的输入,对四个预测结果进行训练预测,输出结果为M2模型;/n6)根据公式M

【技术特征摘要】
1.一种阴影域检测模型建立方法,其特征在于,包括如下步骤:
1)搜集阴影域数据样本和合法域数据样本,提取阴影域特征;
2)对提取的阴影域特征进行Logistic回归建模,选择输出P值小于0.05的特征,构建为F特征集合;
3)对阴影域数据样本提取F特征集合,之后对阴影域数据样本和合法域数据样本分别加标签后合并,再随机划分为两个数据集,即数据集A和数据集B;
4)对数据集A进行三次随机打乱,得到数据集A-1、数据集A-2和数据集A-3,分别对数据集A-1、数据集A-2和数据集A-3通过rbf-svm分类器进行训练,得到三个模型,即modelA-1、modelA-2和modelA-3,对modelA-1、modelA-2和modelA-3采用平均法,得到M1模型;
5)采用stacking模型构建M2,即对数据集B分别采用随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型作为第一层进行预测,分别得到四个预测结果,将四个预测结果作为第二层逻辑回归模型的输入,对四个预测结果进行训练预测,输出结果为M2模型;
6)根据公式Mfinal=0.5*M1+0.5*M2,即根据平均法,得到Mfinal,即得到阴影域检测的模型。


2.按照权利要求1所述的阴影域检测模型建立方法,其特征在于,步骤1)中,利用人为网上搜索的方式,搜集阴影域数据样本,合法域数据样本包括热门流行域名和分非热门流行域名。


3.按照权利要求1所述的阴影域检测模型建立方法,其特征在于,提取的阴影域特征分为四类,即子域名用途特征、子域名托管特征、子域名活动特征和子域名名称特征,其中子域名用途特征包括顶点域与第一个非www子域名之间建立的间隔、同一个顶点域下热门子域名的比例、同一IP下共同托管的热门子域名的比例、子域名的网络连通性、同一顶点域下子域名的连通性、同一IP下共同托管的子域名的网络连通性;子域名托管特征包括子域名托管IP的偏...

【专利技术属性】
技术研发人员:曲武
申请(专利权)人:北京金睛云华科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1