一种相似样本文件确定方法及装置、电子设备及存储介质制造方法及图纸

技术编号：39323199 阅读：9 留言：0更新日期：2023-11-12 16:02

本发明专利技术提供了一种相似样本文件确定方法及装置、电子设备及存储介质，涉及数据处理领域，该方法包括：响应于接收到目标恶意文件，获取若干目标样本文件；获取第一名称字符串列表F和第二名称字符串列表集G；确定名称匹配度列表集E；确定样本匹配度列表H；从b个目标样本文件中确定出至少一个与目标恶意文件对应的目标相似样本文件。本发明专利技术通过每一目标数据源提取目标恶意文件与每一目标样本文件的名称字符串，确定对应的样本匹配度，可以在降低系统占用算力的同时，提高目标相似样本文件的确定匹配度的效率。匹配度的效率。匹配度的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种相似样本文件确定方法及装置、电子设备及存储介质

[0001]本专利技术涉及数据处理领域，特别是涉及一种相似样本文件确定方法及装置、电子设备及存储介质。

技术介绍

[0002]目前的恶意文件检测规则根据同类型的恶意文件的文件特征确定，而同类型的恶意文件是通过获取每一历史样本文件的文件特征进行统计得到的，由于历史样本文件的文件特征的数量较多，其获取和统计时所占用的系统资源也较大，所以，在历史样本文件的数量较多时，目前的相似样本文件的确定方法会大幅增加系统的使用算力。

技术实现思路

[0003]有鉴于此，本专利技术提供一种相似样本文件确定方法及装置、电子设备及存储介质，至少部分解决现有技术中存在的系统算力消耗过多的技术问题，本专利技术采用的技术方案为：根据本申请的一个方面，提供一种相似样本文件确定方法，所述方法包括如下步骤：响应于接收到目标恶意文件，获取若干目标样本文件；获取每一目标数据源对目标恶意文件设置的名称字符串，以得到第一名称字符串列表F=(F1,F2,...,F
j
,...,F
m
)；其中，j=1,2,...,m；m为目标数据源的数量；F
j
为第j个目标数据源对目标恶意文件设置的名称字符串；获取每一目标数据源对每一目标样本文件设置的名称字符串，以得到第二名称字符串列表集G=(G1,G2,...,G
a
,...,G
b
)；G
a
=(G
a1
,G
a2
,....

【技术保护点】

【技术特征摘要】
1.一种相似样本文件确定方法，其特征在于，所述方法包括如下步骤：响应于接收到目标恶意文件，获取若干目标样本文件；获取每一目标数据源对所述目标恶意文件设置的名称字符串，以得到第一名称字符串列表F=(F1,F2,...,F
j
,...,F
m
)；其中，j=1,2,...,m；m为目标数据源的数量；F
j
为第j个目标数据源对所述目标恶意文件设置的名称字符串；获取每一目标数据源对每一所述目标样本文件设置的名称字符串，以得到第二名称字符串列表集G=(G1,G2,...,G
a
,...,G
b
)；G
a
=(G
a1
,G
a2
,...,G
aj
,...,G
am
)；其中，a=1,2,...,b；b为目标样本文件的数量；G
a
为第a个目标样本文件对应的名称字符串列表；G
aj
为第j个目标数据源对第a个目标样本文件设置的名称字符串；根据所述第一名称字符串列表F和所述第二名称字符串列表集G，确定名称匹配度列表集E=(E1,E2,...,E
a
,...,E
b
)；E
a
=(E
a1
,E
a2
,...,E
aj
,...,E
am
)；其中，E
a
为第a个目标样本文件与所述目标恶意文件对应的名称匹配度列表；E
aj
为G
aj
与F
j
之间的名称匹配度；根据所述名称匹配度列表集E，确定样本匹配度列表H=(H1,H2,...,H
a
,...,H
b
)；其中，H
a
为根据E
a
得到的第a个目标样本文件与所述目标恶意文件之间的样本匹配度；根据所述样本匹配度列表H，从b个目标样本文件中确定出至少一个与所述目标恶意文件对应的目标相似样本文件。2.根据权利要求1所述的方法，其特征在于，E
aj
通过以下步骤确定：根据第j个目标数据源对应的预设字符，对F
j
进行字符串拆分，得到F
j
对应的i个第一候选字符串；根据第j个目标数据源对应的预设字符，对G
aj
进行字符串拆分，得到G
aj
对应的i个第二候选字符串；根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串，确定E
aj
。3.根据权利要求2所述的方法，其特征在于，所述根据F
j
对应的i个第一候选字符串和G
aj
对应的i个第二候选字符串，确定E
aj
，包括：根据预设字符串顺序，对F
j
对应的i个第一候选字符串排序，得到第一候选字符串列表F
j1
,F
j2
,...,F
jz
,...,F
ji
；其中，z=1,2,...,i；F
jz
为排序后得到的F
j
对应的第z个第一候选字符串；根据所述预设字符串顺序，对G
aj
对应的i个第二候选字符串排序，得到第二候选字符串列表G
aj1
,G
aj2
,...,G
ajz
,...,G
aji
；其中，G
ajz
为排序后得到的G
aj
对应的第z个第二候选字符串；若G
ajz...

【专利技术属性】
技术研发人员：吕经祥，李石磊，肖新光，
申请(专利权)人：北京安天网络安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人