一种有限训练样本下基于对比学习的恶意域名检测方法技术

技术编号：32455863 阅读：27 留言：0更新日期：2022-02-26 08:33

本发明专利技术提供了一种有限训练样本下基于对比学习的恶意域名检测方法，具体步骤包括：引入对比学习思想设计基于孪生网络的神经特征提取器，构建同类/异类的标签编码域名对，进行训练；将获取的域名神经特征向量集输入到机器学习算法模型中，训练得到域名分类器；将待检测域名依次输入特征提取器和域名分类器，得到判别结果。本发明专利技术从数据的角度缓解了样本不足的问题，能够自动化地提取特征，且特征具有高区分度利于进一步检测，以便更有效地检测出恶意域名样本，有利于拦截恶意活动中的通信并避免其进一步传播，从而提高对僵尸网络等常见恶意攻击模式的安全防御和监督能力。意攻击模式的安全防御和监督能力。意攻击模式的安全防御和监督能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种有限训练样本下基于对比学习的恶意域名检测方法

[0001]本专利技术属于网络空间安全
，涉及一种有限训练样本下基于对比学习的恶意域名检测方法。

技术介绍

[0002]一些常见的恶意攻击模式如僵尸网络，钓鱼网站，勒索病毒等，对网络活动的正常进行产生了巨大的威胁，并成为安全领域的研究热点。在这些恶意活动中，域名起着举足轻重的作用。攻击者通过使用域名生成算法(Domain Generation Algorithms，DGA)生成大量备选恶意域名(称为Algorithmically
‑
Generated Domains，AGD)并选取少量进行注册。由于这种恶意域名数量大、变化快、生存周期短，传统的黑名单安全检测手段对这些攻击模式失效。僵尸主机便可与远程命令和控制服务器(Command&Control Server，C&C Server)建立连接，顺利进行恶意活动。因此，对恶意域名进行有效检测，有利于阻断恶意活动中的通信、避免其进一步传播从而提高防御系统的安全

【技术保护点】

【技术特征摘要】
1.一种有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，包括如下步骤：(1)采用基于对比学习思想的孪生网络框架设计模型，并使用标签编码形式的有限训练域名样本集构建正/负对进行训练，得到可自动化获取可区分特征的特征提取器；(2)使用步骤(1)得到的特征提取器，将标签编码形式的有限训练域名样本集转换为唯一对应的神经特征向量集，并与对应良性/恶意属性标签一起作为训练数据，获取5种基分类器，并采用投票集成方法获得域名分类器；(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器，识别待检测域名。2.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，所述步骤(1)具体包括如下子步骤：(1.1)获取有限域名训练样本的标签编码形式，并根据域名的良性/恶意属性两两配对构建正/负域名样本对；(1.2)设计两个结构相同的子网络，每个子网络采用BiLSTM作为核心结构，输入接受一个编码向量，输出一个神经特征向量；(1.3)连接两个子网络进而构建伪孪生网络，所述伪孪生网络将步骤(1.1)生成的正/负域名样本对作为输入，域名神经特征向量对间的距离视为输出，该伪孪生网络引入对比损失函数来影响向量对间距离，从而学习域名的神经特征向量表示；(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练，训练完成后将全连接层，即Dense层获得的神经特征向量视为输出，即最终得到两个自动化获取可区分特征的特征提取器。3.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，所述步骤(1.1)具体包括如下子步骤：(1.1.1)获得标签向量形式：对于训练样本中的每个域名，先使用数值向量表示，具体地，域名序列中的每个字符使用数值序号标记；(1.1.2)配对生成正/负样本对：正样本对中的两个域名均为良性/恶意，负样本对中的域名为一个良性和一个恶意。4.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神经网络层、全连接层的结构；双向长短期记忆神经网络层作为核心层挖掘域名信息，其输出是通过组合前向和后向输出获得的；子网络为输入域名提取k个新特征，子网络的输出神经特征向量H：H＝[h1，h2…
，h
k
]其中h1，h2…
，h
k
表示输出神经特征向量H中的每个特征。5.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，所述步骤(1.3)...

【专利技术属性】
技术研发人员：胡晓艳，栗淼，程光，吴桦，龚俭，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人