恶意域名检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32887497 阅读:15 留言:0更新日期:2022-04-02 12:23
本申请提供一种恶意域名检测方法、装置、电子设备及存储介质,涉及安全技术领域。该方法通过获取待检测域名的多个分词,将多个分词输入fastText模型中,通过fastText模型检测待检测域名是否为恶意域名,获得检测结果,由于fastText模型使用浅层的神经网络即可实现文本分类功能,在文本分类任务中,浅层网络往往能取得和深度网络相媲美的精度,所以采用fastText模型来进行恶意域名的检测,能够达到深度网络所能实现的检测精度,相比于现有方式中基于正则表达式或黑白名单的检测方式,本方案的检测精度更高。案的检测精度更高。案的检测精度更高。

【技术实现步骤摘要】
恶意域名检测方法、装置、电子设备及存储介质


[0001]本申请涉及安全
,具体而言,涉及一种恶意域名检测方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的不断发展,网络安全问题也日益突出。目前,通过域名生成算法(Domain Generation Algorithm,DGA)可以快速地生成大量的DGA域名,通过DGA域名可以构建鲁棒性较好的僵尸网络。攻击者利用僵尸网络,可以向网络中的设备发起网络攻击。
[0003]为了提高网络安全性,需要对DGA域名进行检测,目前常用的检测技术是基于正则表达式或黑白名单来检测,但是由于DGA域名容易生成且变化较快,所以,使用预先设置的正则表达式或黑白名单对DGA域名的检测方式误报率高。

技术实现思路

[0004]本申请实施例的目的在于提供一种恶意域名检测方法、装置、电子设备及存储介质,用以改善现有技术中的域名检测方法误报率高、准确度低的问题。
[0005]第一方面,本申请实施例提供了一种种恶意域名检测方法,所述方法包括:
[0006]获取待检测域名;
[0007]对所述待检测域名进行分词,获得多个分词;
[0008]将所述多个分词输入fastText模型中,通过所述fastText模型检测所述待检测域名是否为恶意域名,获得检测结果。
[0009]在上述实现过程中,该方法通过获取待检测域名的多个分词,将多个分词输入fastText模型中,通过fastText模型检测待检测域名是否为恶意域名,获得检测结果,由于fastText模型使用浅层的神经网络即可实现文本分类功能,在文本分类任务中,浅层网络往往能取得和深度网络相媲美的精度,所以采用fastText模型来进行恶意域名的检测,能够达到深度网络所能实现的检测精度,相比于现有方式中基于正则表达式或黑白名单的检测方式,本方案的检测精度更高。
[0010]可选地,所述fastText模型包括输入层、隐藏层和输出层,所述多个分词作为所述输入层的输入,所述输入层用于将所述多个分词转换为对应的词向量,所述隐藏层用于对所述词向量进行叠加平均处理,所述输出层用于基于所述隐藏层的处理结果输出对所述待检测域名的检测结果。fastText模型结合了自然语言处理的思路和神经网络的分层思想,所以能够更好地提取各个分词之间的关联关系,并且能够达到神经网络的预测精度。
[0011]可选地,所述对所述待检测域名进行分词,获得多个分词,包括:
[0012]采用N

grama模型对所述待检测域名进行分词,获得多个分词。如此能够更好地对待检测域名进行分词,以利于fastText模型能够更准确地分析各个分词排列顺序的合理性以及对下一个分词出现的约束信息,具有更大的辨别力,进而提高恶意域名的检测精度。
[0013]可选地,所述对所述待检测域名进行分词,获得多个分词,包括:
[0014]采用N

grama模型对所述待检测域名进行分词,获得多个初始分词;
[0015]采用数据关联分析法分析其各个初始分词之间的关联关系;
[0016]根据各个初始分词之间的关联关系筛选出具有强关联关系的多个分词。
[0017]在上述实现过程中,采用数据关联分析法挖掘各个初始分词之间的关联关联,并筛选出具有强关联关系的分词,如此可以进一步提高fastText模型提取各个具有强关联关系的分词之间的关联关系,提高检测精度。
[0018]可选地,所述对所述待检测域名进行分词,获得多个分词,包括:
[0019]采用N

grama模型对所述待检测域名进行分词,获得多个初始分词;
[0020]将所述多个初始分词按照设定组合方式进行组合,获得组合后的多个分词;
[0021]其中,所述fastText模型的输入数据包括所述多个初始分词和所述组合后的多个分词。
[0022]在上述实现过程中,将多个初始分词进行组合,这样可以增加输入fastText模型的数据量,使得fastText模型可以利用更多的数据来检测恶意域名,提高检测精度。
[0023]可选地,在获取待检测域名之后,对所述待检测域名进行分词,获得多个分词之前,所述方法还包括:
[0024]将所述待检测域名与预先存储的多个恶意域名进行相似度计算,获得所述待检测域名与各个恶意域名之间的相似度;
[0025]若所述相似度大于设定相似度的数量超过设定比例,则确定所述待检测域名为可疑域名,并执行步骤:对所述待检测域名进行分词。
[0026]在上述实现过程中,预先将待检测域名与多个恶意域名进行相似度计算,在待检测域名为可疑域名时才进行后续的检测,这样可以减少后续fastText模型的检测量,在网络中有大量域名需要检测时,这样可以提高检测效率。
[0027]可选地,所述将所述待检测域名与预先存储的多个恶意域名进行相似度计算,获得所述待检测域名与各个恶意域名之间的相似度,包括:
[0028]计算所述待检测域名的模糊哈希值,以及计算预先存储的各个恶意域名的模糊哈希值;
[0029]将所述待检测域名的模糊哈希值与各个恶意域名的模糊哈希值进行相似度比较,获得所述待检测域名与各个恶意域名之间的相似度。
[0030]在上述实现过程中,模糊哈希值能够更准确地比较两个字符串之间的相似度,因为针对域名的某个分片中数据的增加、修改、删除等变化,只会影响该分片的哈希,对全局的影响不大,所以对最后相似度的影响也不大,即便是改动连续几个字符,或者作多处改动,模糊哈希算法依然可能作出有效的判断,进而通过比较域名之间的模糊哈希值能够更准确地判断两个域名之间的相似度。
[0031]第二方面,本申请实施例提供了一种恶意域名检测装置,所述装置包括:
[0032]域名获取模块,用于获取待检测域名;
[0033]分词模块,用于对所述待检测域名进行分词,获得多个分词;
[0034]检测模块,用于将所述多个分词输入fastText模型中,通过所述fastText模型检测所述待检测域名是否为恶意域名,获得检测结果。
[0035]可选地,所述fastText模型包括输入层、隐藏层和输出层,所述多个分词作为所述
输入层的输入,所述输入层用于将所述多个分词转换为对应的词向量,所述隐藏层用于对所述词向量进行叠加平均处理,所述输出层用于基于所述隐藏层的处理结果输出对所述待检测域名的检测结果。
[0036]可选地,所述分词模块,用于采用N

grama模型对所述待检测域名进行分词,获得多个分词。
[0037]可选地,所述分词模块,用于采用N

grama模型对所述待检测域名进行分词,获得多个初始分词;采用数据关联分析法分析其各个初始分词之间的关联关系;根据各个初始分词之间的关联关系筛选出具有强关联关系的多个分词。
[0038]可选地,所述分词模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意域名检测方法,其特征在于,所述方法包括:获取待检测域名;对所述待检测域名进行分词,获得多个分词;将所述多个分词输入fastText模型中,通过所述fastText模型检测所述待检测域名是否为恶意域名,获得检测结果。2.根据权利要求1所述的方法,其特征在于,所述fastText模型包括输入层、隐藏层和输出层,所述多个分词作为所述输入层的输入,所述输入层用于将所述多个分词转换为对应的词向量,所述隐藏层用于对所述词向量进行叠加平均处理,所述输出层用于基于所述隐藏层的处理结果输出对所述待检测域名的检测结果。3.根据权利要求1所述的方法,其特征在于,所述对所述待检测域名进行分词,获得多个分词,包括:采用N

grama模型对所述待检测域名进行分词,获得多个分词。4.根据权利要求1所述的方法,其特征在于,所述对所述待检测域名进行分词,获得多个分词,包括:采用N

grama模型对所述待检测域名进行分词,获得多个初始分词;采用数据关联分析法分析其各个初始分词之间的关联关系;根据各个初始分词之间的关联关系筛选出具有强关联关系的多个分词。5.根据权利要求1所述的方法,其特征在于,所述对所述待检测域名进行分词,获得多个分词,包括:采用N

grama模型对所述待检测域名进行分词,获得多个初始分词;将所述多个初始分词按照设定组合方式进行组合,获得组合后的多个分词;其中,所述fastText模型的输入数据包括所述多个初始分词和所述组合后的多个分词。...

【专利技术属性】
技术研发人员:李金辉崔元浩
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1