基于自注意力生成对抗网络的恶意域名检测方法和装置制造方法及图纸

技术编号:35011947 阅读:10 留言:0更新日期:2022-09-21 15:06
本发明专利技术的实施例提供了基于自注意力生成对抗网络的恶意域名检测方法和装置。所述方法包括获取真实域名数据;创建生成对抗网络,初始化生成器模型、判别器模型以及参数,创建随机噪声数据;以真实域名数据和随机噪声数据训练生成器模型,得到生成域名样本和生成域名样本类别标签;训练判别器模型,得到自注意力生成对抗网络模型;将待检测的域名样本输入自注意力生成对抗网络模型,输出检测结果。以此方式,可以减少深度神经网络易受对抗性攻击的风险,并提高恶意域名检测的准确率。并提高恶意域名检测的准确率。并提高恶意域名检测的准确率。

【技术实现步骤摘要】
基于自注意力生成对抗网络的恶意域名检测方法和装置


[0001]本专利技术一般涉及恶意域名检测领域,并且更具体地,涉及基于自注意力生成对抗网络的恶意域名检测方法和装置。

技术介绍

[0002]域名系统(Domain Name System, DNS)是用于将域名和IP地址相互映射的一个分布式数据库。近年来,DNS各部分常常受到广泛的攻击。其中,恶意域名是很大一部分安全隐患,它通常是指具有恶意链接的网址,利用浏览器的漏洞在网站内植入木马、病毒、恶意程序等,通过伪装网站的服务内容来诱导用户访问,用户一旦访问,可能会导致计算机被恶意代码感染,从而对个人隐私和财产安全造成一定的威胁。因此,需要对恶意域名进行检测来避免上述威胁。
[0003]常见的恶意域名检测方法包括:一、基于机器学习的恶意域名检测方法。基于机器学习的恶意域名检测方法主要以人工特征提取为基础,建立特征工程方式进行检测。
[0004]二、基于深度学习的恶意域名检测方法。基于深度学习的恶意域名检测方法主要集中在循环神经网络和卷积神经网络两个神经网络上,可以解决手工提取特征的问题,在准确性方面优于基于机器学习的方法。
[0005]尽管上述恶意域名检测方法已经取得了不错的成果,但是仍存在很多缺陷,包括:一、针对基于机器学习的恶意域名检测方法,人工构建特征费时费力,设计的特征很容易被绕过。其次,设计人工特征需要随着域名生成算法的更新而更新。最后,恶意域名检测的误报率高,检测低随机性的域名准确率较低。
[0006]二、针对基于深度学习的恶意域名检测方法,尽管深度神经网络(如CNN、RNN、LSTM、GRU等)在处理复杂任务方面十分优秀,但是最近的研究表明,它容易受到对抗性网络的攻击,对输入添加微小的扰动,就会导致模型预测错误的结果。

技术实现思路

[0007]根据本专利技术的实施例,提供了一种基于自注意力生成对抗网络的恶意域名检测方案。本方案通过构建自注意力生成对抗网络模型,减少深度神经网络易受对抗性攻击的风险,并提高恶意域名检测的准确率。
[0008]在本专利技术的第一方面,提供了一种基于自注意力生成对抗网络的恶意域名检测方法。该方法包括:获取真实域名样本,对所述真实域名样本按照字符编码规则进行转换,得到真实域名数据;创建生成对抗网络,初始化所述生成对抗网络中的生成器模型、判别器模型以及参数,并且创建随机噪声数据;以所述真实域名数据和所述随机噪声数据对所述生成器模型进行训练,并对所述
生成器模型的输出结果按照字符编码规则进行转换,得到生成域名样本和生成域名样本类别标签;以所述生成域名样本和所述真实域名样本对所述判别器模型进行训练,当训练完毕时,若所述判别器模型的输出结果达到预设阈值,则得到自注意力生成对抗网络模型;否则,返回重新对所述生成器模型进行训练;将待检测的域名样本输入所述自注意力生成对抗网络模型,输出检测结果。
[0009]进一步地,所述以所述真实域名数据和所述随机噪声数据对所述生成器模型进行训练,包括:对所述真实域名数据和所述随机噪声数据进行预处理,得到二级域名对应的域名字符;将所述二级域名对应的域名字符转换为字符嵌入向量;将所述字符嵌入向量输入所述生成器模型的LSTM层,得到第一LSTM特征向量;对所述二级域名对应的域名字符、字符嵌入向量和第一LSTM特征向量进行特征拼接,得到拼接特征向量;将所述拼接特征向量输入自注意力层,输出自注意力特征向量;将所述自注意力特征向量输入全连接层,进行向量内积,输出生成域名数据。
[0010]进一步地,所述对所述真实域名数据和所述随机噪声数据进行预处理,包括:删除所述真实域名数据和所述随机噪声数据中域名数据的顶级域名和/或多级域名。
[0011]进一步地,所述将所述拼接特征向量输入自注意力层,输出自注意力特征向量,包括:将所述拼接特征向量和预处理后的随机噪声数据进行结合,得到模拟真实样本产生的数据;将所述模拟真实样本产生的数据通过1*1卷积转换成第一状态空间和第二状态空间;将所述第一状态空间进行转置后,与所述第二状态空间进行内积,得到关联矩阵;对所述关联矩阵逐行通过Softmax函数进行归一化,得到自注意力特征向量。
[0012]进一步地,所述以所述生成域名样本和所述真实域名样本对所述判别器模型进行训练,包括:向所述判别器模型的LSTM层输入所述生成域名样本、生成域名样本类别标签、真实域名样本、真实域名样本类别标签,输出第二LSTM特征向量;将所述第二LSTM特征向量输入所述判别器模型的全连接层,进行向量内积,得到所述判别器模型的输出结果。
[0013]进一步地,所述判别器模型的目标函数为:其中, 为目标函数优化值, 为期望; 为所述判别器模型将真实域名样本判定为真实数据的概率,其中 为真实域名样本; 为所述判别器模型将生成域名样本判定为虚假数据的概率,其中 为生成域名样本。
[0014]进一步地,还包括:通过蒸馏网络算法对所述自注意力生成对抗网络模型中的判别器模型进行训练,得到训练后的自注意力生成对抗网络模型,并输出预测标签。
[0015]进一步地,所述通过蒸馏网络算法对所述自注意力生成对抗网络模型中的判别器模型进行训练,包括:在设定的温度参数下,向所述判别器模型的LSTM层输入真实域名样本和真实域名样本类别标签,输出第三LSTM特征向量;将所述第三LSTM特征向量输入所述判别器模型的全连接层,输出全连接层特征向量;将全连接层特征向量通过Softmax函数进行归一化,得到预测软标签;在与所述温度参数下,将所述预测软标签和真实域名样本输入到蒸馏网络,对所述蒸馏网络进行训练,输出预测标签;所述蒸馏网络与所述判别器模型的结构相同。
[0016]在本专利技术的第二方面,提供了一种基于自注意力生成对抗网络的恶意域名检测装置。该装置包括:获取模块,用于获取真实域名样本,对所述真实域名样本按照字符编码规则进行转换,得到真实域名数据;初始化模块,用于创建生成对抗网络,初始化所述生成对抗网络中的生成器模型、判别器模型以及参数,并且创建随机噪声数据;第一训练模块,用于以所述真实域名数据和所述随机噪声数据对所述生成器模型进行训练,并对所述生成器模型的输出结果按照字符编码规则进行转换,得到生成域名样本和生成域名样本类别标签;第二训练模块,用于以所述生成域名样本和所述真实域名样本对所述判别器模型进行训练,当训练完毕时,若所述判别器模型的输出结果达到预设阈值,则得到自注意力生成对抗网络模型;否则,返回重新对所述生成器模型进行训练;检测模块,用于将待检测的域名样本输入所述自注意力生成对抗网络模型,输出检测结果。
[0017]在本专利技术的第三方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术第一方面的方法。
[0018]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力生成对抗网络的恶意域名检测方法,其特征在于,包括:获取真实域名样本,对所述真实域名样本按照字符编码规则进行转换,得到真实域名数据;创建生成对抗网络,初始化所述生成对抗网络中的生成器模型、判别器模型以及参数,并且创建随机噪声数据;以所述真实域名数据和所述随机噪声数据对所述生成器模型进行训练,并对所述生成器模型的输出结果按照字符编码规则进行转换,得到生成域名样本和生成域名样本类别标签;以所述生成域名样本和所述真实域名样本对所述判别器模型进行训练,当训练完毕时,若所述判别器模型的输出结果达到预设阈值,则得到自注意力生成对抗网络模型;否则,返回重新对所述生成器模型进行训练;将待检测的域名样本输入所述自注意力生成对抗网络模型,输出检测结果。2.根据权利要求1所述的方法,其特征在于,所述以所述真实域名数据和所述随机噪声数据对所述生成器模型进行训练,包括:对所述真实域名数据和所述随机噪声数据进行预处理,得到二级域名对应的域名字符;将所述二级域名对应的域名字符转换为字符嵌入向量;将所述字符嵌入向量输入所述生成器模型的LSTM层,得到第一LSTM特征向量;对所述二级域名对应的域名字符、字符嵌入向量和第一LSTM特征向量进行特征拼接,得到拼接特征向量;将所述拼接特征向量输入自注意力层,输出自注意力特征向量;将所述自注意力特征向量输入全连接层,进行向量内积,输出生成域名数据。3.根据权利要求2所述的方法,其特征在于,所述对所述真实域名数据和所述随机噪声数据进行预处理,包括:删除所述真实域名数据和所述随机噪声数据中域名数据的顶级域名和/或多级域名。4.根据权利要求2所述的方法,其特征在于,所述将所述拼接特征向量输入自注意力层,输出自注意力特征向量,包括:将所述拼接特征向量和预处理后的随机噪声数据进行结合,得到模拟真实样本产生的数据;将所述模拟真实样本产生的数据通过1*1卷积转换成第一状态空间和第二状态空间;将所述第一状态空间进行转置后,与所述第二状态空间进行内积,得到关联矩阵;对所述关联矩阵逐行通过Softmax函数进行归一化,得到自注意力特征向量。5.根据权利要求1所述的方法,其特征在于,所述以所述生成域名样本和所述真实域名样本对所述判别器模型进行训练,包括:向所述判别器模型的LSTM层输入所述生成域名样本、生成域名样本类别标签、真实域名样本、真实域名样本类别标签,输出第二LSTM特征向量;将所述第二LSTM特征向量输入所述...

【专利技术属性】
技术研发人员:杨润峰曲武高燊
申请(专利权)人:金睛云华沈阳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1