【技术实现步骤摘要】
一种有限训练样本下基于对比学习的恶意域名检测方法
[0001]本专利技术属于网络空间安全
,涉及一种有限训练样本下基于对比学习的恶意域名 检测方法。
技术介绍
[0002]一些常见的恶意攻击模式如僵尸网络,钓鱼网站,勒索病毒等,对网络活动的正常进行 产生了巨大的威胁,并成为安全领域的研究热点。在这些恶意活动中,域名起着举足轻重的 作用。攻击者通过使用域名生成算法(Domain Generation Algorithms,DGA)生成大量备选 恶意域名(称为Algorithmically
‑
Generated Domains,AGD)并选取少量进行注册。由于这种 恶意域名数量大、变化快、生存周期短,传统的黑名单安全检测手段对这些攻击模式失效。 僵尸主机便可与远程命令和控制服务器(Command&Control Server,C&C Server)建立连接, 顺利进行恶意活动。因此,对恶意域名进行有效检测,有利于阻断恶意活动中的通信、避免 其进一步传播从而提高防御系统的安全
【技术保护点】
【技术特征摘要】
1.一种有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,包括如下步骤:(1)采用基于对比学习思想的孪生网络框架设计模型,并使用标签编码形式的有限训练域名样本集构建正/负对进行训练,得到可自动化获取可区分特征的特征提取器;(2)使用步骤(1)得到的特征提取器,将标签编码形式的有限训练域名样本集转换为唯一对应的神经特征向量集,并与对应良性/恶意属性标签一起作为训练数据,获取5种基分类器,并采用投票集成方法获得域名分类器;(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器,识别待检测域名。2.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,所述步骤(1)具体包括如下子步骤:(1.1)获取有限域名训练样本的标签编码形式,并根据域名的良性/恶意属性两两配对构建正/负域名样本对;(1.2)设计两个结构相同的子网络,每个子网络采用BiLSTM作为核心结构,输入接受一个编码向量,输出一个神经特征向量;(1.3)连接两个子网络进而构建伪孪生网络,所述伪孪生网络将步骤(1.1)生成的正/负域名样本对作为输入,域名神经特征向量对间的距离视为输出,该伪孪生网络引入对比损失函数来影响向量对间距离,从而学习域名的神经特征向量表示;(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练,训练完成后将全连接层,即Dense层获得的神经特征向量视为输出,即最终得到两个自动化获取可区分特征的特征提取器。3.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,所述步骤(1.1)具体包括如下子步骤:(1.1.1)获得标签向量形式:对于训练样本中的每个域名,先使用数值向量表示,具体地,域名序列中的每个字符使用数值序号标记;(1.1.2)配对生成正/负样本对:正样本对中的两个域名均为良性/恶意,负样本对中的域名为一个良性和一个恶意。4.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神经网络层、全连接层的结构;双向长短期记忆神经网络层作为核心层挖掘域名信息,其输出是通过组合前向和后向输出获得的;子网络为输入域名提取k个新特征,子网络的输出神经特征向量H:H=[h1,h2…
,h
k
]其中h1,h2…
,h
k
表示输出神经特征向量H中的每个特征。5.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,所述步骤(1.3)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。