一种相似样本文件确定方法及装置、电子设备及存储介质制造方法及图纸

技术编号:39323199 阅读:9 留言:0更新日期:2023-11-12 16:02
本发明专利技术提供了一种相似样本文件确定方法及装置、电子设备及存储介质,涉及数据处理领域,该方法包括:响应于接收到目标恶意文件,获取若干目标样本文件;获取第一名称字符串列表F和第二名称字符串列表集G;确定名称匹配度列表集E;确定样本匹配度列表H;从b个目标样本文件中确定出至少一个与目标恶意文件对应的目标相似样本文件。本发明专利技术通过每一目标数据源提取目标恶意文件与每一目标样本文件的名称字符串,确定对应的样本匹配度,可以在降低系统占用算力的同时,提高目标相似样本文件的确定匹配度的效率。匹配度的效率。匹配度的效率。

【技术实现步骤摘要】
一种相似样本文件确定方法及装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,特别是涉及一种相似样本文件确定方法及装置、电子设备及存储介质。

技术介绍

[0002]目前的恶意文件检测规则根据同类型的恶意文件的文件特征确定,而同类型的恶意文件是通过获取每一历史样本文件的文件特征进行统计得到的,由于历史样本文件的文件特征的数量较多,其获取和统计时所占用的系统资源也较大,所以,在历史样本文件的数量较多时,目前的相似样本文件的确定方法会大幅增加系统的使用算力。

技术实现思路

[0003]有鉴于此,本专利技术提供一种相似样本文件确定方法及装置、电子设备及存储介质,至少部分解决现有技术中存在的系统算力消耗过多的技术问题,本专利技术采用的技术方案为:根据本申请的一个方面,提供一种相似样本文件确定方法,所述方法包括如下步骤:响应于接收到目标恶意文件,获取若干目标样本文件;获取每一目标数据源对目标恶意文件设置的名称字符串,以得到第一名称字符串列表F=(F1,F2,...,F
j
,...,F
m
);其中,j=1,2,...,m;m为目标数据源的数量;F
j
为第j个目标数据源对目标恶意文件设置的名称字符串;获取每一目标数据源对每一目标样本文件设置的名称字符串,以得到第二名称字符串列表集G=(G1,G2,...,G
a
,...,G
b
);G
a
=(G
a1
,G
a2
,...,G
aj
,...,G
am
);其中,a=1,2,...,b;b为目标样本文件的数量;G
a
为第a个目标样本文件对应的名称字符串列表;G
aj
为第j个目标数据源对第a个目标样本文件设置的名称字符串;根据第一名称字符串列表F和第二名称字符串列表集G,确定名称匹配度列表集E=(E1,E2,...,E
a
,...,E
b
);E
a
=(E
a1
,E
a2
,...,E
aj
,...,E
am
);其中,E
a
为第a个目标样本文件与目标恶意文件对应的名称匹配度列表;E
aj
为G
aj
与F
j
之间的名称匹配度;根据名称匹配度列表集E,确定样本匹配度列表H=(H1,H2,...,H
a
,...,H
b
);其中,H
a
为根据E
a
得到的第a个目标样本文件与目标恶意文件之间的样本匹配度;根据样本匹配度列表H,从b个目标样本文件中确定出至少一个与目标恶意文件对应的目标相似样本文件。
[0004]在本申请的一种示例性实施例中,E
aj
通过以下步骤确定:根据第j个目标数据源对应的预设字符,对F
j
进行字符串拆分,得到F
j
对应的i个第一候选字符串;根据第j个目标数据源对应的预设字符,对G
aj
进行字符串拆分,得到G
aj
对应的i个第二候选字符串;
根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串,确定E
aj

[0005]在本申请的一种示例性实施例中,根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串,确定E
aj
,包括:根据预设字符串顺序,对F
j
对应的i个第一候选字符串排序,得到第一候选字符串列表F
j1
,F
j2
,...,F
jz
,...,F
ji
;其中,z=1,2,...,i;F
jz
为排序后得到的F
j
对应的第z个第一候选字符串;根据预设字符串顺序,对G
aj
对应的i个第二候选字符串排序,得到第二候选字符串列表G
aj1
,G
aj2
,...,G
ajz
,...,G
aji
;其中,G
ajz
为排序后得到的G
aj
对应的第z个第二候选字符串;若G
ajz
与F
jz
相同,则将1确定为G
ajz
与F
jz
之间的字符串匹配度J
ajz
;否则,将0确定为G
ajz
与F
jz
之间的字符串匹配度J
ajz
;确定。
[0006]在本申请的一种示例性实施例中,H
a
通过以下公式确定:。
[0007]在本申请的一种示例性实施例中,从b个目标样本文件中确定出至少一个与目标恶意文件对应的目标相似样本文件,包括:遍历样本匹配度列表H,若H
a
≥H0,则将第a个目标样本文件确定为与目标恶意文件对应的目标相似样本文件;其中,H0为预设样本匹配度阈值。
[0008]在本申请的一种示例性实施例中,获取若干目标样本文件,包括:获取目标恶意文件的文件信息;根据文件信息,从若干历史样本文件中确定出若干目标样本文件。
[0009]在本申请的一种示例性实施例中,从若干历史样本文件中确定出若干目标样本文件,包括:遍历每一历史样本文件,若历史样本文件的文件信息与目标恶意文件的文件信息相同,则将该历史样本文件确定为目标样本文件。
[0010]根据本申请的一个方面,提供一种相似样本文件确定装置,包括:样本文件获取模块,用于当接收到目标恶意文件时,获取若干目标样本文件;第一名称字符串获取模块,用于获取每一目标数据源对目标恶意文件设置的名称字符串,以得到第一名称字符串列表F=(F1,F2,...,F
j
,...,F
m
);其中,j=1,2,...,m;m为目标数据源的数量;F
j
为第j个目标数据源对目标恶意文件设置的名称字符串;第二名称字符串获取模块,用于获取每一目标数据源对每一目标样本文件设置的名称字符串,以得到第二名称字符串列表集G=(G1,G2,...,G
a
,...,G
b
);G
a
=(G
a1
,G
a2
,...,G
aj
,...,G
am
);其中,a=1,2,...,b;b为目标样本文件的数量;j=1,2,...,m;m为目标数据源的数量;G
a
为第a个目标样本文件对应的名称字符串列表;G
aj
为第j个目标数据源对第a个目标样本文件设置的名称本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似样本文件确定方法,其特征在于,所述方法包括如下步骤:响应于接收到目标恶意文件,获取若干目标样本文件;获取每一目标数据源对所述目标恶意文件设置的名称字符串,以得到第一名称字符串列表F=(F1,F2,...,F
j
,...,F
m
);其中,j=1,2,...,m;m为目标数据源的数量;F
j
为第j个目标数据源对所述目标恶意文件设置的名称字符串;获取每一目标数据源对每一所述目标样本文件设置的名称字符串,以得到第二名称字符串列表集G=(G1,G2,...,G
a
,...,G
b
);G
a
=(G
a1
,G
a2
,...,G
aj
,...,G
am
);其中,a=1,2,...,b;b为目标样本文件的数量;G
a
为第a个目标样本文件对应的名称字符串列表;G
aj
为第j个目标数据源对第a个目标样本文件设置的名称字符串;根据所述第一名称字符串列表F和所述第二名称字符串列表集G,确定名称匹配度列表集E=(E1,E2,...,E
a
,...,E
b
);E
a
=(E
a1
,E
a2
,...,E
aj
,...,E
am
);其中,E
a
为第a个目标样本文件与所述目标恶意文件对应的名称匹配度列表;E
aj
为G
aj
与F
j
之间的名称匹配度;根据所述名称匹配度列表集E,确定样本匹配度列表H=(H1,H2,...,H
a
,...,H
b
);其中,H
a
为根据E
a
得到的第a个目标样本文件与所述目标恶意文件之间的样本匹配度;根据所述样本匹配度列表H,从b个目标样本文件中确定出至少一个与所述目标恶意文件对应的目标相似样本文件。2.根据权利要求1所述的方法,其特征在于,E
aj
通过以下步骤确定:根据第j个目标数据源对应的预设字符,对F
j
进行字符串拆分,得到F
j
对应的i个第一候选字符串;根据第j个目标数据源对应的预设字符,对G
aj
进行字符串拆分,得到G
aj
对应的i个第二候选字符串;根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串,确定E
aj
。3.根据权利要求2所述的方法,其特征在于,所述根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串,确定E
aj
,包括:根据预设字符串顺序,对F
j
对应的i个第一候选字符串排序,得到第一候选字符串列表F
j1
,F
j2
,...,F
jz
,...,F
ji
;其中,z=1,2,...,i;F
jz
为排序后得到的F
j
对应的第z个第一候选字符串;根据所述预设字符串顺序,对G
aj
对应的i个第二候选字符串排序,得到第二候选字符串列表G
aj1
,G
aj2
,...,G
ajz
,...,G
aji
;其中,G
ajz
为排序后得到的G
aj
对应的第z个第二候选字符串;若G
ajz...

【专利技术属性】
技术研发人员:吕经祥李石磊肖新光
申请(专利权)人:北京安天网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1