域名对抗样本生成方法以及装置制造方法及图纸

技术编号：32563144 阅读：16 留言：0更新日期：2022-03-09 16:47

本公开是关于一种域名对抗样本生成方法以及装置，涉及网络安全领域，包括：获取域名训练样本，将域名训练样本输入至生成器，以得到第一域名对抗数据；将第一域名对抗数据输入至二元分类器，以得到域名训练样本的真实性概率，并根据真实性概率和域名训练样本的真实数据计算第一损失值；在生成器逐字符生成第一域名对抗数据的每一时刻，利用语言模型判别器和域名训练样本，计算在生成器逐字符生成第一域名对抗数据的每一时刻的交叉熵损失值；根据第一损失值和每一时刻的交叉熵损失值，训练生成器、二元分类器和语言模型判别器；响应于域名对抗样本生成请求，基于训练好的生成器生成域名对抗样本。本公开提高了检测的时效性和鲁棒性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
域名对抗样本生成方法以及装置

[0001]本公开涉及网络安全领域，尤其涉及域名对抗样本生成方法以及装置。

技术介绍

[0002]随着技术的不断发展，攻击者们开始设计基于机器学习的DGA算法以专门饶过DGA检测器的探查能力。而由于标注成本昂贵，现有的DGA检测算法很难快速获得足量的最新DGA域名训练样本，而仅仅在有限的真实世界数据集上训练的模型在应对新型DGA算法时是难以发挥预期效果的，这就使得检测模型的迭代周期过长，检测的时效性和鲁棒性较差。

技术实现思路

[0003]为克服相关技术中存在的问题，本公开提供一种域名对抗样本生成方法以及装置。
[0004]根据本公开实施例的第一方面，提供一种域名对抗样本生成方法，包括：
[0005]获取域名训练样本，将域名训练样本输入至生成器，以得到第一域名对抗数据；
[0006]将第一域名对抗数据输入至二元分类器，以得到域名训练样本的真实性概率，并根据真实性概率和域名训练样本的真实数据计算第一损失值；
[0007]在生成器逐字符生成第一域名对抗数据的每一时刻，利用语言模型判别器和域名训练样本，计算在生成器逐字符生成第一域名对抗数据的每一时刻的交叉熵损失值；
[0008]根据第一损失值和每一时刻的交叉熵损失值，训练生成器、二元分类器和语言模型判别器；
[0009]响应于域名对抗样本生成请求，基于训练好的生成器生成域名对抗样本。
[0010]根据本公开实施例的第二方面，提供一种域名对抗样本生成装置，包括：
[...

【技术保护点】

【技术特征摘要】
1.一种域名对抗样本生成方法，其特征在于：获取域名训练样本，将所述域名训练样本输入至生成器，以得到第一域名对抗数据；将所述第一域名对抗数据输入至二元分类器，以得到所述域名训练样本的真实性概率，并根据所述真实性概率和所述域名训练样本的真实数据计算第一损失值；在所述生成器逐字符生成所述第一域名对抗数据的每一时刻，利用语言模型判别器和所述域名训练样本，计算在所述生成器逐字符生成所述第一域名对抗数据的每一时刻的交叉熵损失值；根据所述第一损失值和所述每一时刻的交叉熵损失值，训练所述生成器、所述二元分类器和所述语言模型判别器；响应于域名对抗样本生成请求，基于训练好的生成器生成域名对抗样本。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值和所述每一时刻的交叉熵损失值，训练所述生成器、所述二元分类器和所述语言模型判别器，包括：根据所述第一损失值和所述每一时刻的交叉熵损失值计算生成器的指导信号，并根据所述指导信号对所述生成器进行一次训练操作；固定所述生成器的参数，并将域名训练样本输入至所述生成器以得到第二域名对抗数据，并根据第二域名对抗数据分别对所述语言模拟判别器和所述二元分类器进行一次训练操作；其中，所述语言模拟判别器利用每一时刻的交叉熵损失值和所述域名训练样本进行训练；所述二元分类器利用第一损失值和第二域名对抗数据进行训练；依照顺序循环迭代执行上述操作中所述生成器、所述语言模型判别器和所述二元分类器的训练操作，其中，当所述生成器进行训练时，固定所述二元分类器和所述语言模型判别器的参数，当对所述二元分类器和所述语言模型判别器进行训练的时候，固定所述生成器的参数。3.根据权利要求1所述的方法，其特征在于，所述生成器的期望累积奖励函数的计算公式为：式中，r
t
所述每一时刻的交叉熵损失值，p
θ
(y
t
|Y
t
‑1,X)为当前时刻的生成器概率分布，X为所述域名训练样本，Y为域名对抗数据，θ为生成器，T为生成完整个序列的序列长度，t为生成过程的一个时刻，y为生成器生成出来的模型预测值。4.根据权利要求1所述的方法，其特征在于，所述二元分类器的目标函数为：式中，y
i
指所述二分类判别器的输入，label
i
是输入样本的标签指明其真伪性，R
θ
表示正则化项，函数f表示具体的判别模型的预测结果，l
i
表示单个样本的分类误差。5.一种域名对抗样本生成装置，其特征在于：获取模块，用于获取域名训练样本，将所述域名训练样本输入至生成器，以得到第一域
名对抗数据；二元判断模块，用于将所述第一域名对抗数据输入至二元分类器，以得到所述域名训练样本的真实性概...

【专利技术属性】
技术研发人员：杨家海，方欣，孙晓晴，王之梁，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人