一种域名标号检测方法、存储介质及电子设备技术

技术编号:36988423 阅读:22 留言:0更新日期:2023-03-25 18:06
本发明专利技术涉及数据处理领域,特别是涉及一种域名标号检测方法、存储介质及电子设备,该方法包括:若待检测标号满足第一预设条件或第二预设条件,则基于训练后的第一检测模型确定出待检测标号对应的检测结果;第一预设条件为对应的标号由第一类字符串组成,第二预设条件为对应的标号由第一类字符串和目标类字符串组成,若待检测标号满足第三预设条件或第四预设条件,则基于训练后的第二检测模型确定出待检测标号对应的检测结果;第三预设条件为对应的标号由第一类字符组成,第四预设条件为对应的标号由第一类字符和目标类字符串组成。由此,本发明专利技术可以提高确定待检测标号是否为基于域名生成算法生成的域名标号的准确度。名生成算法生成的域名标号的准确度。名生成算法生成的域名标号的准确度。

【技术实现步骤摘要】
一种域名标号检测方法、存储介质及电子设备


[0001]本专利技术涉及数据处理领域,特别是涉及一种域名标号检测方法、存储介质及电子设备。

技术介绍

[0002]域名生成算法(DGA)用于生成随机的域名标号,恶意软件利用该域名标号组成的域名可有效地绕过黑名单检测,因此检测域名标号是否是基于域名生成算法生成的是十分必要的。
[0003]目前在对待检测标号进行是否为基于域名生成算法生成的域名标号的检测时,一般首先会采用若干训练域名标号对初始检测模型进行训练,得到训练完成的模型,然后基于训练完成的模型检测待检测标号是否为基于域名生成算法生成的域名标号。
[0004]但是,由于域名标号的构建原理较为多样化,例如一般会基于英文单词或汉字的拼音的全写或简写进行域名标号的构建,因此在对初始检测模型进行训练时,采用不同构建原理构建的训练域名标号相互之间会产生训练效果的干扰,进而会造成基于训练完成的模型检测待检测标号是否为基于域名生成算法生成的域名标号的准确度较低。

技术实现思路

[0005]针对上述技术问题,本专利技术采用的技术方案为:根据本专利技术的一方面,提供了一种域名标号检测方法,包括:S100,获取待检测域名中的待检测标号。
[0006]S200,确定待检测标号是否满足第一预设条件或第二预设条件;若是,则进入步骤S300,否则,进入步骤S400;第一预设条件为对应的标号由至少预设数量的第一类字符串组成,第一类字符串为英文单词或汉字的拼音;第二预设条件为对应的标号由至少预设数量的第一类字符串和至少一个目标类字符串组成,目标类字符串为由数字或连字符组成的字符串。
[0007]S300,基于训练后的第一检测模型,在第一检测结果和第二检测结果中确定出待检测标号对应的检测结果;训练后的第一检测模型为根据若干第一训练样本对初始检测模型进行训练得到的,若干第一训练样本中的每一正样本均为满足第一预设条件或第二预设条件的标号;第一检测结果用于表示对应的标号为基于域名生成算法生成的域名标号,第二检测结果用于表示对应的标号不为基于域名生成算法生成的域名标号。
[0008]S400,确定待检测标号是否满足第三预设条件或第四预设条件;若是,则进入步骤S500;第三预设条件为对应的标号由若干第一类字符组成,第一类字符为英文单词的首个字母或汉字的拼音的首个字符;第四预设条件为对应的标号由若干第一类字符和至少一个目标类字符串组成。
[0009]S500,基于训练后的第二检测模型,在第一检测结果和第二检测结果中确定出待检测标号对应的检测结果;训练后的第二检测模型为根据若干第二训练样本对初始检测模
型进行训练得到的,若干第二训练样本中的每一正样本均为满足第三预设条件或第四预设条件的标号。
[0010]根据本专利技术的另一方面,还提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述域名标号检测方法。
[0011]根据本专利技术的另一方面,还提供了一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
[0012]本专利技术至少具有以下有益效果:在本专利技术中,若待检测标号满足第一预设条件或第二预设条件,则说明待检测标号是基于英文单词或汉字的拼音的全写构建的,此时可以基于训练后的第一检测模型检测出待检测标号是否为基于域名生成算法生成的域名标号,若待检测标号满足第三预设条件或第四预设条件,则说明待检测标号是基于英文单词或汉字的拼音的简写构建的,此时可以基于训练后的第二检测模型检测出待检测标号是否为基于域名生成算法生成的域名标号。
[0013]相比于相关技术中构建原理不同的待检测标号使用同一检测模型进行是否为基于域名生成算法生成的域名标号的检测,本专利技术中训练后的第一检测模型和训练后的第二检测模型由于训练过程中使用的正样本满足的条件不同,因此训练后的第一检测模型和训练后的第二检测模型进行检测的待检测标号的类别也不同,基于此,在本专利技术中,由于训练后的第一检测模型在训练过程中受到不满足第一预设条件和第二预设条件的正样本的影响较少,且训练后的第二检测模型在训练过程中受到不满足第三预设条件和第四预设条件的正样本的影响较少,因此训练后的第一检测模型针对基于英文单词或汉字的拼音的全写构建的待检测标号进行检测的准确度更高,训练后的第二检测模型针对基于英文单词或汉字的拼音的简写构建的待检测标号进行检测的准确度更高,综上,本专利技术可以提高确定待检测标号是否为基于域名生成算法生成的域名标号的准确度。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本专利技术实施例提供的域名标号检测方法的流程图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本专利技术实施例提供了一种域名标号检测方法,其中,该方法可以由以下任意一项或其任意组合完成:终端、服务器、其他具备处理能力的设备,本专利技术实施例对此不作限定。
[0018]本专利技术实施例以服务器为例,下面将参照图1所示的域名标号检测方法的流程图,对域名标号检测方法进行介绍。
[0019]该方法包括以下步骤:S100,获取待检测域名中的待检测标号。
[0020]上述步骤S100的一种具体的实施方式可以为,服务器可以先获取待检测域名,然后将获取到的待检测域名中的全部标号中不为预设标号的标号作为待处理标号,并将待处理标号中的任一作为待检测标号。预设标号可以为com和www等常见正常标号。
[0021]待检测域名中的任一标号被检测为基于域名生成算法生成的域名标号,则待检测域名为基于域名生成算法生成的域名;待检测域名中的每一标号均未被检测为基于域名生成算法生成的域名标号,则待检测域名不为基于域名生成算法生成的域名。
[0022]S200,确定待检测标号是否满足第一预设条件或第二预设条件;若是,则进入步骤S300,否则,进入步骤S400。
[0023]其中,第一预设条件为对应的标号由至少预设数量的第一类字符串组成,第一类字符串为英文单词或汉字的拼音;第二预设条件为对应的标号由至少预设数量的第一类字符串和至少一个目标类字符串组成,目标类字符串为由数字或连字符组成的字符串。
[0024]可选的,预设数量为大于2且小于5的整数,优选的,预设数量为3。
[0025]具体的,第一类字符串为单个英文单词或单个汉字的拼音。
[0026]示例性的,预设数量为3,基于此,对于标题为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种域名标号检测方法,其特征在于,所述方法包括以下步骤:S100,获取待检测域名中的待检测标号;S200,确定所述待检测标号是否满足第一预设条件或第二预设条件;若是,则进入步骤S300,否则,进入步骤S400;第一预设条件为对应的标号由至少预设数量的第一类字符串组成,第一类字符串为英文单词或汉字的拼音;第二预设条件为对应的标号由至少预设数量的第一类字符串和至少一个目标类字符串组成,目标类字符串为由数字或连字符组成的字符串;S300,基于训练后的第一检测模型,在第一检测结果和第二检测结果中确定出所述待检测标号对应的检测结果;第一检测结果用于表示对应的标号为基于域名生成算法生成的,第二检测结果用于表示对应的标号不为基于域名生成算法生成的;S400,确定所述待检测标号是否满足第三预设条件或第四预设条件;若是,则进入步骤S500;第三预设条件为对应的标号由若干第一类字符组成,第一类字符为英文单词的首个字母或汉字的拼音的首个字符;第四预设条件为对应的标号由若干第一类字符和至少一个目标类字符串组成;S500,基于训练后的第二检测模型,在第一检测结果和第二检测结果中确定出待检测标号对应的检测结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S200包括以下步骤:S201,获取第一参考字符串组a0=(a
01
,a
02
,...,a
0u
,...,a
0v
),u=1,2,...,v;其中,a
0u
为a0中的第u个第一参考字符串,每一所述第一参考字符串均为英文单词或汉字的拼音;v为所述第一参考字符串的数量;S202,根据a0对所述待检测标号进行字符串切分,得到第一切分后字符串组b0=(b
01
,b
02
,...,b
0c
,...,b
0d
),c=1,2,...,d;其中,b
0c
为第c个第一切分后字符串,d为根据a0对所述待检测标号进行字符串切分后得到的字符串的数量;S203,获取第一目标字符串组b
01
=(b
011
,b
021
,...,b
0e1
,...,b
0g1
),e=1,2,...,g;其中,b
0e1
为在b0中且与a0中的任一第一参考字符串相同的第x个第一目标字符串;g为b
01
中的第一目标字符串的数量,g≤d;S204,确定g是否大于或等于所述预设数量;若是,则所述待检测标号满足所述第一预设条件或所述第二预设条件,此时进入所述步骤S300;否则,所述待检测标号不满足所述第一预设条件和所述第二预设条件,此时进入所述步骤S400。3.根据权利要求2所述的方法,其特征在于,所述步骤S300包括以下步骤:S301,根据b
01
,获取所述待检测标号对应的第一特征向量F1=(d,h1,h2,...,h
e
,...,h
g
);其中,h
e
为b
0e1
对应的权重系数;S302,通过所述训练后的第一检测模型对F1进行处理,得到所述训练后的第一检测模型输出的第一检测结果或第二检测结果。4.根据权利要求2所述的方法,其特征在于,在所述待检测标号中b
0(w

1)
位于b
0w
之前,w=2,3,...,d;所述步骤S300包括以下步骤:S303,将b
01
和b
0d
中不属于b
01
的第一切分后字符串在b0中删除,得到筛选后字符串组b
02
=(b
012
,b
022
,...,b
0r2
,...,b
0s2
),r=1,2,...,s;其中,b
0r2
为b
02
中的第r个筛选后字符串;s为
b
02
中的筛选后字符串的数量,s≤d;S304,根据b
01
,获取所述待检测标号对应的第二特征向量F2=(d,h
11
,h
21
,...,h
r1
,...,h
s1
);其中,h
r1
为根据b
0r2
确定的权重系数;S305,通过所述训练后的第一检测模型对F2进行处理,得到所述训练后的第一检测模型输出的第一检测结果或第二检测结果。5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:李峰孙晓鹏卢鹏程刘鹏李仲举
申请(专利权)人:山东云天安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1