基于RGB图像和轻量化模型的恶意代码分类方法及系统技术方案

技术编号：37999323 阅读：18 留言：0更新日期：2023-06-30 10:13

本发明专利技术属于恶意代码分类技术领域，提出了一种基于RGB图像和轻量化模型的恶意代码分类方法及系统，包括：反编译原始恶意代码文件生成asm文件和bytes文件；提取asm文件中的操作码序列和bytes文件中的字节序列，将基于操作码序列生成的灰度图和马尔可夫图像以及基于字节序列生成的马尔可夫图像进行融合，得到融合后的RGB图像；将其输入至训练后的轻量化模型中进行分类。本发明专利技术分别提取操作码序列和字节序列，获得基于操作码频率的灰度图、基于操作码序列的马尔科夫图像、基于字节序列的马尔可夫图像；将操作码序列可视化为马尔可夫图像，最大限度地保证了提取特征的完整性，提高了模型的泛化能力。了模型的泛化能力。了模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
基于RGB图像和轻量化模型的恶意代码分类方法及系统

[0001]本专利技术属于恶意代码分类
，尤其涉及一种基于RGB图像和轻量化模型的恶意代码分类方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]传统的恶意代码静态检测技术虽然简单迅速，不需要占用很大的资源，但是对于未知的家族无法进行检测，而且容易受到多态、变形等方式的干扰从而导致漏报和误报。在变种数增长速度越来愈快的情况下，传统的恶意代码静态检测方法已经失效了。近些年，可视化技术已经广泛应用于恶意代码检测领域，与传统的静态检测方法相比，可视化方法可以完整保留恶意样本的特征信息，也可以更加直观的观察到每个恶意样本的异同点，解决了混淆技术所带来的影响。而且现有的研究通常是对恶意二进制文件采用了灰度化处理，从灰度图像提取特征结合神经网络进行训练并得到实验结果，但灰度图像是单通道数据图像，它包含的恶意代码信息特征量少而且单一，这就导致灰度图在神经网络中不如三通道数据图像更直观且效果好。
>[0004]深度学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于RGB图像和轻量化模型的恶意代码分类方法，其特征在于，包括：反编译原始恶意代码文件，生成asm文件和bytes文件；提取所述asm文件中的操作码序列，分别将提取的所述操作码序列转化为灰度图和马尔可夫图像；提取所述bytes文件中的字节序列，将字节序列可视化为马尔可夫图像；将基于操作码序列生成的灰度图和马尔可夫图像以及基于字节序列生成的马尔可夫图像进行融合，得到融合后的RGB图像；将融合后的RGB图像输入至训练后的轻量化模型中进行分类。2.如权利要求1所述的一种基于RGB图像和轻量化模型的恶意代码分类方法，其特征在于，提取所述asm文件中的操作码序列，将提取的所述操作码序列转化为灰度图包括：利用N
‑
gram算法提取所述asm文件中的提取每个恶意样本的所有操作码；选择每三个操作码作为子序列，计算子序列的频率；选择每个恶意样本中频率最高的256个子序列，小于256的补充0，填充256
×
256的矩阵，最后生成灰度图像。3.如权利要求1所述的一种基于RGB图像和轻量化模型的恶意代码分类方法，其特征在于，提取所述asm文件中的操作码序列，将提取的所述操作码序列转化为马尔可夫图像包括：提取全部恶意代码文件.text字段的所有操作码序列；统计出现次数最多的前255个操作码序列，并在其末尾填充“aaa”；创建初始化为零，大小为256
×
256的矩阵；判断单个文件操作码类型与256个操作码是否相同，如果相同置为空，否则，输出不相同的操作码；判断输出的操作码是否与单个文件操作码类型相同，不同置为“aaa”；设置一个大小为2的滑动窗口，并且将连续两个操作码中，第一个操作码看作行，第二个操作码看作列，对应位置加1，滑动至单个文件的最后一个操作码结束，之后生成二维转移概率矩阵；将二维转移概率矩阵可视化为马尔科夫图像。4.如权利要求1所述的一种基于RGB图像和轻量化模型的恶意代码分类方法，其特征在于，所述提取所述bytes文件中的字节序列，将字节序列可视化为马尔可夫图像，包括：创建初始化为零，大小为256
×
256的矩阵；将bytes文件中的十六进制数转化为0
‑
255的十进制数；设置一个大小为2的滑动窗口，并且将连续两个字节中，第一个字节看作行，第二个字节看作列，在对应位置加1，滑动至最后一个字节结束，生成二维转移...

【专利技术属性】
技术研发人员：赵大伟，孙晨宇，杨淑棉，徐丽娟，李鑫，张雨鑫，徐庆玲，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人