一种文件处理方法、设备及计算机可读存储介质技术

技术编号:38360456 阅读:8 留言:0更新日期:2023-08-05 17:30
本申请公开了一种文件处理方法,该方法包括:获取样本恶意文件和样本非恶意文件;确定样本恶意文件中的第一字符信息的第一重要程度和样本非恶意文件中的第二字符信息的第二重要程度;基于第一重要程度和第一字符信息确定第一样本特征信息,并基于第二重要程度和第二字符信息确定第二样本特征信息;基于第一样本特征信息和第二样本特征信息进行模型训练,得到目标文件识别模型。本申请实施例还公开了一种文件处理设备及计算机可读存储介质。一种文件处理设备及计算机可读存储介质。一种文件处理设备及计算机可读存储介质。

【技术实现步骤摘要】
一种文件处理方法、设备及计算机可读存储介质


[0001]本申请涉及文件处理领域,尤其涉及一种文件处理方法、设备及计算机可读存储介质。

技术介绍

[0002]可执行与可链接格式(Executable and Linkable Format,ELF)文件是一种可执行可链接格式的二进制文件,被广泛应用于计算机中;但是,当ELF文件中携带有恶意病毒时,会导致计算机被恶意病毒攻击。为了避免上述情况发生,相关技术中根据人为经验对ELF文件进行分析确定病毒规则,并基于病毒规则对待分析ELF文件进行检测,以此来确定待分析ELF文件是否为恶意文件。但是,相关技术中这种基于人为经验确定的病毒规则不准确,导致对待分析ELF文件是否为恶意文件的判断不准确,甚至会存在误判的情况。

技术实现思路

[0003]为解决上述技术问题,本申请实施例提供一种文件处理方法、设备及计算机可读存储介质,解决了相关技术中对待分析ELF文件是否为恶意文件的判断不准确的问题,避免了误判的情况发生。
[0004]本申请的技术方案是这样实现的:
[0005]一种文件处理方法,所述方法包括:
[0006]获取样本恶意文件和样本非恶意文件;
[0007]确定所述样本恶意文件中的第一字符信息的第一重要程度和所述样本非恶意文件中的第二字符信息的第二重要程度;
[0008]基于所述第一重要程度和所述第一字符信息确定第一样本特征信息,并基于所述第二重要程度和所述第二字符信息确定第二样本特征信息;
[0009]基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,得到目标文件识别模型。
[0010]上述方案中,所述获取样本恶意文件和所述样本非恶意文件,包括:
[0011]获取多个时间段的样本恶意文件,并确定所述多个时间段中所述样本恶意文件的第一分布情况;
[0012]基于所述第一分布情况,获取所述样本非恶意文件。
[0013]上述方案中,所述确定所述样本恶意文件中的第一字符信息的第一重要程度和所述样本非恶意文件中的第二字符信息的第二重要程度,包括:
[0014]基于所述样本恶意文件中第一字符串的第二分布情况和所述第一字符串的第一上下文信息,确定所述第一字符串的第一重要程度;其中,所述第一字符信息包括所述第一字符串;
[0015]基于所述样本非恶意文件中第二字符串的第三分布情况和所述第二字符串的第二上下文信息,确定所述第二字符串的第二重要程度;其中,所述第二字符信息包括所述第
二字符串。
[0016]上述方案中,所述基于所述第一重要程度和所述第一字符信息确定第一样本特征信息,并基于所述第二重要程度和所述第二字符信息确定第二样本特征信息,包括:
[0017]基于所述第一重要程度,对所述样本恶意文件中的第一字符串进行筛选,以得到第一初始样本特征信息;
[0018]基于所述第二重要程度,对所述样本非恶意文件中的第二字符串进行筛选,以得到第二初始样本特征信息;
[0019]对所述第一样本初始特征信息进行降维处理,得到所述第一样本特征信息;
[0020]对所述第二样本初始特征信息进行降维处理,得到所述第二样本特征信息。
[0021]上述方案中,所述基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,得到目标文件识别模型,包括:
[0022]对所述第二样本特征信息进行分组,得到多组第二样本特征信息;
[0023]基于所述第一样本特征信息和所述多组第二样本特征信息,对初始文件识别模型进行周期性训练,得到所述目标文件识别模型;其中,一组第二样本特征信息对应一个训练周期。
[0024]上述方案中,所述基于所述第一样本特征信息和所述多组第二样本特征信息,对初始文件识别模型进行周期性训练,得到所述目标文件识别模型,包括:
[0025]针对第一个训练周期,基于所述第一样本特征信息和第一组第二样本特征信息,对所述初始文件识别模型进行迭代训练,得到第一文件识别模型;
[0026]针对第二训练周期,基于所述第一样本特征信息和第二组第二样本特征信息,对所述第一文件识别模型进行迭代训练,得到第二文件识别模型,直到在第N训练周期训练得到的第N文件识别模型中的参数满足目标条件,以得到所述目标文件识别模型。
[0027]一种文件处理方法,所述方法包括:
[0028]获取待分析文件;
[0029]基于目标文件识别模型对所述待分析文件进行处理,确定所述待分析文件是否为恶意文件;其中,所述目标文件识别模型是基于样本恶意文件中的第一字符信息和所述第一字符信息的第一重要程度确定的第一样本特征信息,以及样本非恶意文件中的第二字符信息和所述第二字符信息的第二重要程度确定的第二样本特征信息训练得到的。
[0030]上述方案中,所述方法还包括:
[0031]在确定所述待分析文件为恶意文件的情况下,确定所述恶意文件的恶意类型和恶意等级;
[0032]基于所述恶意类型和所述恶意等级,生成告警信息并输出。
[0033]一种文件处理设备,所述设备包括:处理器、存储器和通信总线;
[0034]所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
[0035]所述处理器用于执行所述存储器中的文件处理程序,以实现上述的文件处理方法的步骤。
[0036]一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的文件处理方法的步骤。
[0037]本申请实施例所提供的文件处理方法、设备及计算机可读存储介质,获取样本恶意文件和样本非恶意文件;确定样本恶意文件中的第一字符信息的第一重要程度和样本非恶意文件中的第二字符信息的第二重要程度;基于第一重要程度和第一字符信息确定第一样本特征信息,并基于第二重要程度和第二字符信息确定第二样本特征信息;基于第一样本特征信息和第二样本特征信息进行模型训练,得到目标文件识别模型;如此,基于通过第一重要程度和第一字符信息确定的第一样本特征信息,以及通过第二重要程度和第二字符信息确定的第二样本特征信息进行模型训练,得到目标文件识别模型,以便后续可以基于目标文件识别模型,判断待分析文件是否为恶意文件,而不是如相关技术中一样基于人为经验确定的病毒规则,来检测待分析文件是否为恶意文件,解决了相关技术中基于人为经验提取的病毒规则对待分析文件是否为恶意文件的判断不准确的问题,提高了判断待分析文件是否为恶意文件的准确率,避免了误判的情况发生。
附图说明
[0038]图1为本申请实施例提供的一种文件处理方法的流程示意图;
[0039]图2为本申请实施例提供的另一种文件处理方法的流程示意图;
[0040]图3为本申请实施例提供的一种文件处理方法中模型训练的训练过程示意图;
[0041]图4为本申请实施例提供的又一种文件处理方法的流程示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件处理方法,其特征在于,所述方法包括:获取样本恶意文件和样本非恶意文件;确定所述样本恶意文件中的第一字符信息的第一重要程度和所述样本非恶意文件中的第二字符信息的第二重要程度;基于所述第一重要程度和所述第一字符信息确定第一样本特征信息,并基于所述第二重要程度和所述第二字符信息确定第二样本特征信息;基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,得到目标文件识别模型。2.根据权利要求1所述的方法,其特征在于,所述获取样本恶意文件和所述样本非恶意文件,包括:获取多个时间段的样本恶意文件,并确定所述多个时间段中所述样本恶意文件的第一分布情况;基于所述第一分布情况,获取所述样本非恶意文件。3.根据权利要求1所述的方法,其特征在于,所述确定所述样本恶意文件中的第一字符信息的第一重要程度和所述样本非恶意文件中的第二字符信息的第二重要程度,包括:基于所述样本恶意文件中第一字符串的第二分布情况和所述第一字符串的第一上下文信息,确定所述第一字符串的第一重要程度;其中,所述第一字符信息包括所述第一字符串;基于所述样本非恶意文件中第二字符串的第三分布情况和所述第二字符串的第二上下文信息,确定所述第二字符串的第二重要程度;其中,所述第二字符信息包括所述第二字符串。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一重要程度和所述第一字符信息确定第一样本特征信息,并基于所述第二重要程度和所述第二字符信息确定第二样本特征信息,包括:基于所述第一重要程度,对所述样本恶意文件中的第一字符串进行筛选,以得到第一初始样本特征信息;基于所述第二重要程度,对所述样本非恶意文件中的第二字符串进行筛选,以得到第二初始样本特征信息;对所述第一样本初始特征信息进行降维处理,得到所述第一样本特征信息;对所述第二样本初始特征信息进行降维处理,得到所述第二样本特征信息。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,得到目标文件识别模型,包括:对所述第二样本特征信...

【专利技术属性】
技术研发人员:黄晟宋汝鹏徐敬蘅
申请(专利权)人:深圳市深信服信息安全有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1