域名检测方法、系统及相关设备技术方案

技术编号:35580972 阅读:14 留言:0更新日期:2022-11-12 16:10
本公开提供了一种域名检测方法,涉及通信技术领域,该方法包括:提取域名系统流量中待检测域名的高级别域名;将高级别域名与目标字符列表进行匹配得到匹配结果;根据高级别域名,通过文本分类计算得到文本正例概率;根据匹配结果和文本正例概率计算得到待检测域名的分类概率;以及根据分类概率确定待检测域名的预测类别。本公开方法通过提取高级别域名部分,尽可能多地保留有效字符信息,从而增加了检测结果的泛化能力,提高了检测结果的准确率。进一步地,结合字符匹配和文本分类的方法,增加了域名分析的解释性以及域名分析的可靠性。性。性。

【技术实现步骤摘要】
域名检测方法、系统及相关设备


[0001]本公开涉及通信
,尤其涉及一种域名检测方法、系统、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着网络技术的发展,窃取他人计算资源的恶意网站层出不穷,极大危害被攻击者的利益。现有技术往往都是基于分析域名的字符特征的方法,但实际上恶意域名为了避免被检测,会在域名中添加许多干扰信息从而影响检测的准确性,另一方面,恶意域名中也不一定具备可预判字符特征,因此准确率低。
[0003]因此,如何提高域名检测结果的准确率是一个亟需解决的问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种域名检测方法、系统、装置、计算机可读存储介质及电子设备,以至少解决相关技术中域名检测准确率不高的技术问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]本公开的技术方案如下:
[0008]根据本公开的一个方面,提供一种域名检测方法,该方法包括:提取域名系统流量中待检测域名的高级别域名;将高级别域名与目标字符列表进行匹配得到匹配结果;根据高级别域名,通过文本分类计算得到文本正例概率;根据匹配结果和文本正例概率计算得到待检测域名的分类概率;以及根据分类概率确定待检测域名的预测类别。
[0009]在本公开的一些实施例中,提取域名系统流量中待检测域名的高级别域名的步骤包括:按照待检测域名中的点号检测待检测域名的字符段数量;若字符段数量不大于2,则将待检测域名作为高级别域名;若字符段数量大于2,则提取待测域名的一级域名和二级域名作为高级别域名。
[0010]在本公开的一些实施例中,根据高级别域名,通过文本分类计算得到文本正例概率的步骤包括:从搜索服务器中获取高级别域名的文本数据;以及将文本数据输入至训练好的目标文本描述模型,得到待检测域名的文本正例概率。
[0011]在本公开的一些实施例中,将文本数据输入至训练好的目标文本描述模型,得到待检测域名的文本正例概率的步骤之前包括:从搜索服务器中获取目标类别域名的文本数据和非目标类别域名的文本数据;将目标类别域名的文本数据标记为正例和非目标类别域名的文本数据标记为反例;以及使用标记为正例的文本数据和反例的文本数据,对基于变换器的双向编码器表征模型进行训练得到目标文本描述模型。
[0012]在本公开的一些实施例中,根据匹配结果和文本正例概率计算得到待检测域名的
分类概率的步骤包括:根据分类概率f(m,p)和匹配结果m∈{0,1}以及文本正例概率p∈[0,1]的关系计算得到分类概率,该关系表示为:
[0013][0014]其中,λ∈[0,1]为超参数。
[0015]在本公开的一些实施例中,将高级别域名与目标字符列表进行匹配得到匹配结果的步骤包括:将高级别域名与目标地址库进行匹配,若高级别域名与目标地址库中的目标类别域名匹配成功,则将待检测域名的类别确认为目标类别;将高级别域名与白名单进行匹配,若高级别域名与白名单匹配成功,则将待检测域名的类别确认为非目标类别;若待检测域名与目标地址库和白名单均匹配失败,则将高级别域名与目标字符列表进行匹配得到匹配结果。
[0016]在本公开的一些实施例中,根据分类概率确定待检测域名的预测类别的步骤之后包括:若预测类别为目标类别域名,则将待检测域名添加到目标地址库;若预测类别为非目标类别域名,则将待检测域名添加到白名单。
[0017]根据本公开的又一个方面,提供一种域名检测系统,该系统包括:分布式消息队列系统、流数据计算引擎、模型计算服务器和搜索服务器,其中,分布式消息队列系统,用于传递域名系统流量;流数据计算引擎,用于从分布式消息队列系统中实时读取域名系统流量中待检测域名的高级别域名;以及将高级别域名与目标字符列表进行匹配得到匹配结果;搜索服务器,用于搜索高级别域名的文本数据;模型计算服务器,用于从搜索服务器中获取高级别域名的文本数据;将文本数据输入至训练好的目标文本描述模型,得到待检测域名的文本正例概率;以及流数据计算引擎,根据匹配结果和文本正例概率计算得到待检测域名的分类概率;以及根据分类概率确定待检测域名的预测类别。
[0018]根据本公开的又一个方面,提供一种域名检测装置,该装置包括:高级别域名提取模块,用于提取域名系统流量中待检测域名的高级别域名;匹配模块,用于将高级别域名与目标字符列表进行匹配得到匹配结果;文本正例计算模块,用于根据高级别域名,通过文本分类计算得到文本正例概率;分类计算模块,用于根据匹配结果和文本正例概率计算得到待检测域名的分类概率;以及类别预测模块,用于根据分类概率确定待检测域名的预测类别。
[0019]根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的域名检测方法。
[0020]根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的域名检测方法。
[0021]本公开方法通过提取高级别域名部分,尽可能多地保留有效字符信息,从而增加了检测结果的泛化能力,提高了检测结果的准确率。
[0022]进一步地,结合字符匹配和文本分类的方法,增加了域名分析的解释性以及域名分析的可靠性。
[0023]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1示出本公开实施例中一种域名检测方法的流程图。
[0026]图2示出本公开实施例中一种域名检测方法中高级别域名提取方法的流程图。
[0027]图3示出本公开实施例中一种域名检测方法中挖矿文本描述模型训练与预测的流程图。
[0028]图4示出本公开实施例中又一种域名检测方法的流程图。
[0029]图5示出本公开实施例的一种实施域名检测方法的示例性系统部署方案示意图。
[0030]图6示出本公开实施例中一种域名检测装置的示意图。
[0031]图7示出本公开实施例中一种域名检测方法的电子设备的示意性框图。
具体实施方式
[0032]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种域名检测方法,其特征在于,所述方法包括:提取域名系统流量中待检测域名的高级别域名;将所述高级别域名与目标字符列表进行匹配得到匹配结果;根据所述高级别域名,通过文本分类计算得到文本正例概率;根据所述匹配结果和所述文本正例概率计算得到所述待检测域名的分类概率;以及根据所述分类概率确定所述待检测域名的预测类别。2.根据权利要求1所述的域名检测方法,其特征在于,提取域名系统流量中待检测域名的高级别域名的步骤包括:按照所述待检测域名中的点号检测所述待检测域名的字符段数量;若所述字符段数量不大于2,则将所述待检测域名作为高级别域名;若所述字符段数量大于2,则提取所述待测域名的一级域名和二级域名作为所述高级别域名。3.根据权利要求2所述的域名检测方法,其特征在于,根据所述高级别域名,通过文本分类计算得到文本正例概率的步骤包括:从搜索服务器中获取所述高级别域名的文本数据;以及将所述文本数据输入至训练好的所述目标文本描述模型,得到所述待检测域名的所述文本正例概率。4.根据权利要求3所述的域名检测方法,其特征在于,将所述文本数据输入至训练好的所述目标文本描述模型,得到所述待检测域名的所述文本正例概率的步骤之前包括:从所述搜索服务器中获取目标类别域名的文本数据和非目标类别域名的文本数据;将所述目标类别域名的文本数据标记为正例和非目标类别域名的文本数据标记为反例;以及使用标记为所述正例的文本数据和所述反例的文本数据,对基于变换器的双向编码器表征模型进行训练得到目标文本描述模型。5.根据权利要求4所述的域名检测方法,其特征在于,根据所述匹配结果和所述文本正例概率计算得到所述待检测域名的分类概率的步骤包括:根据所述分类概率f(m,p)和匹配结果m∈{0,1}以及文本正例概率p∈[0,1]的关系计算得到所述分类概率,所述关系表示为:其中,λ∈[0,1]为超参数。6.根据权利要求5所述的域名检测方法,其特征在于,将所述高级别域名与目标字符列表进行匹配得到匹配结果的步骤包括:将所述高级别域名与目标地址库进行匹配,若所述高级别域名与所述目标地址库中的目标类别域名匹配成功,则将所述待检测域名的类别确认为目标类别;将所述高级别域名与白名单进行匹配,...

【专利技术属性】
技术研发人员:谢泳邓博仁汪来富
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1