ELF恶意文件快速静态检测方法、装置、电子设备制造方法及图纸

技术编号:35314887 阅读:32 留言:0更新日期:2022-10-22 13:07
本申请实施例提供一种ELF恶意文件快速静态检测方法、装置、电子设备,其中,该方法包括:获取ELF文件;将所述ELF文件划分为训练集、测试集、验证集;提取所述训练集中的十进制序列;对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列;对所述训练集中的子序列进行向量化,得到所述训练集中的嵌入向量;将所述训练集的嵌入向量输入预先构建的模型进行训练,得到检测模型;获取所述测试集中的嵌入向量;将所述测试集中的嵌入向量输入所述检测模型进行检测,得到检测结果。实施本申请实施例,可以提高对ELF恶意文件的检测效率和检测性能,减少检测过程中的出错率,缩短检测时间,减少人力成本和物力成本。减少人力成本和物力成本。减少人力成本和物力成本。

【技术实现步骤摘要】
ELF恶意文件快速静态检测方法、装置、电子设备


[0001]本申请涉及网络安全
,具体而言,涉及一种ELF恶意文件快速静态检测方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]恶意软件是最容易被利用的一种恶意攻击方法,随着恶意软件的数量持续上升。产生了大量防范恶意软件的方法或产品。例如,可执行与可链接格式(Executable and Linkable Format,ELF)恶意文件静态检测方法。
[0003]但是,现有技术的ELF恶意文件快速静态检测方法大部分是基于签名的检测方法或者是基于人工提取的方法,基于签名的检测方法难以适应高速增长恶意软件攻击,并且,此类方法需要安全分析人员不断研究恶意样本,手动写大量的签名规则,在特定场景下可以有效的识别恶意软件,但难以检测未知威胁。另一类基于人工提取的方法,使用了机器学习进行检测,可以检测未知威胁,但是需要专家知识定义检测特征,并且需要不断的维护特征,需要大量人工参与。
[0004]因此,针对ELF恶意软件静态检测过度依赖签名和人工提取的特征,定义特征需要依赖很多的专家知识,难以维护;严重依赖文件结构解析,耗时长;且针对恶意修改的文件基本难以解析或者会解析出错,出错率高,严重影响检测性能。

技术实现思路

[0005]本申请实施例的目的在于提供一种ELF恶意文件快速静态检测方法、装置、电子设备及计算机可读存储介质,可以提高对ELF恶意文件的检测效率和检测性能,减少检测过程中的出错率,缩短检测时间,减少人力成本和物力成本。
[0006]第一方面,本申请实施例提供了一种ELF恶意文件快速静态检测方法,所述方法包括:获取ELF文件;将所述ELF文件划分为训练集、测试集、验证集;提取所述训练集中的十进制序列;对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列;对所述训练集中的子序列进行向量化,得到所述训练集中的嵌入向量;将所述训练集的嵌入向量输入预先构建的模型进行训练,得到检测模型;获取所述测试集中的嵌入向量;将所述测试集中的嵌入向量输入所述检测模型进行检测,得到检测结果。
[0007]在上述实现过程中,通过提取ELF数据集的十进制序列,并在十进制序列进行切片处理、向量化后进行训练,得到针对ELF恶意文件的检测模型,可以提高对ELF恶意文件的检测效率和检测性能,减少检测过程中的出错率,缩短检测时间,减少人力成本和物力成本。
[0008]进一步地,所述提取所述训练集中的十进制序列的步骤,包括:
将所述训练集转换为二进制形式,得到二进制转换后的训练集;提取所述二进制转换后的训练集中的字节码序列;将所述字节码序列转换为uint8型数值,得到所述训练集中的十进制序列。
[0009]在上述实现过程中,只提取二进制转换后的ELF数据集中的字节码序列,不需要提取所有字节码,使得到的十进制序列包含ELF数据集的重要特征,同时不会造成冗余,可以提高检测效率。
[0010]进一步地,所述对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列的步骤,包括:对所述二进制转换后的训练集进行统计分析,得到文件头字节码大小、文件程序头表字节码大小、文件程序头表字节码偏置、文件节头表字节码大小和文件节头表字节码偏置;根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的子序列。
[0011]在上述实现过程中,根据文件头字节码大小、文件程序头表字节码大小、文件程序头表字节码偏置、文件节头表字节码大小和文件节头表字节码偏置对十进制序列进行切片处理,使得子序列包含文件头字节码大小、文件程序头表字节码大小和文件节头表字节码大小,提高子序列的精确度。
[0012]进一步地,所述根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的子序列的步骤,包括:根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的初始子序列;对所述训练集中的初始子序列进行填充处理,得到所述训练集中的子序列。
[0013]在上述实现过程中,对训练集中的初始子序列进行填充,得到训练集中的子序列,使得训练集中的子序列的长度更加便于检测,有助于提高检测精度。
[0014]进一步地,所述训练集中的子序列表示为:;其中,为所述训练集中的子序列,为所述训练集中的初始子序列,p为填充值,为所述训练集中的初始子序列的实际长度,为所述训练集中的子序列的理论长度。
[0015]在上述实现过程中,利用训练集中的初始子序列、填充值表示训练集中的子序列,可以使得训练集中的子序列根据训练集中的初始子序列进行调整,确保训练集中的子序列的精度。
[0016]进一步地,所述训练集中的初始子序列表示为:;其中,为所述训练集中的初始子序列,S为所述训练集中的十进制序列,为所述文件头字节码大小,为所述文件程序头表字节码大小,为所述文件程
序头表字节码偏置,为所述文件节头表字节码大小。
[0017]进一步地,所述获取所述测试集中的嵌入向量的步骤,包括:提取所述测试集中的十进制序列;对所述测试集中的十进制序列进行切片处理,得到所述测试集中的子序列;对所述测试集中的子序列进行向量化,得到所述测试集中的嵌入向量。
[0018]在上述实现过程中,对提取测试集中的嵌入向量进行测试,可以提高测试精度。
[0019]第二方面,本申请实施例还提供了一种ELF恶意文件快速静态检测装置,所述装置包括:获取模块,用于获取ELF文件;还用于获取测试集中的嵌入向量;划分模块,用于将所述ELF文件划分为训练集、测试集、验证集;提取模块,用于提取所述训练集中的十进制序列;切片模块,用于对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列;向量化模块,用于对所述训练集中的子序列进行向量化,得到所述训练集中的嵌入向量;训练模块,用于将所述训练集的嵌入向量输入预先构建的模型进行训练,得到检测模型;检测模块,用于将所述测试集中的嵌入向量输入所述检测模型进行检测,得到检测结果。
[0020]在上述实现过程中,通过提取ELF数据集的十进制序列,并在十进制序列进行切片处理、向量化后进行训练,得到针对ELF恶意文件的检测模型,可以提高对ELF恶意文件的检测效率和检测性能,减少检测过程中的出错率,缩短检测时间,减少人力成本和物力成本。
[0021]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0022]第四方面,本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ELF恶意文件快速静态检测方法,其特征在于,所述方法包括:获取ELF文件;将所述ELF文件划分为训练集、测试集、验证集;提取所述训练集中的十进制序列;对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列;对所述训练集中的子序列进行向量化,得到所述训练集中的嵌入向量;将所述训练集的嵌入向量输入预先构建的模型进行训练,得到检测模型;获取所述测试集中的嵌入向量;将所述测试集中的嵌入向量输入所述检测模型进行检测,得到检测结果。2.根据权利要求1所述的ELF恶意文件快速静态检测方法,其特征在于,所述提取所述训练集中的十进制序列的步骤,包括:将所述训练集转换为二进制形式,得到二进制转换后的训练集;提取所述二进制转换后的训练集中的字节码序列;将所述字节码序列转换为uint8型数值,得到所述训练集中的十进制序列。3.根据权利要求2所述的ELF恶意文件快速静态检测方法,其特征在于,所述对所述训练集中的十进制序列进行切片处理,得到所述训练集中的子序列的步骤,包括:对所述二进制转换后的训练集进行统计分析,得到文件头字节码大小、文件程序头表字节码大小、文件程序头表字节码偏置、文件节头表字节码大小和文件节头表字节码偏置;根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的子序列。4.根据权利要求3所述的ELF恶意文件快速静态检测方法,其特征在于,所述根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的子序列的步骤,包括:根据所述文件头字节码大小、所述文件程序头表字节码大小、所述文件程序头表字节码偏置、所述文件节头表字节码大小和所述文件节头表字节码偏置对所述十进制序列进行切片处理,得到所述训练集中的初始子序列;对所述训练集中的初始子序列进行填充处理,得到所...

【专利技术属性】
技术研发人员:周公延陈杰赵林林童兆丰薛锋
申请(专利权)人:北京微步在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1