一种基于机器学习的恶意程序样本聚类方法及相关装置制造方法及图纸

技术编号：20745921 阅读：34 留言：0更新日期：2019-04-03 10:31

本申请公开了一种基于机器学习的恶意程序样本聚类方法，包括：对多个恶意程序进行基本指令块提取，得到每个所述恶意程序对应的基本指令块组；根据指令序号字典对每个所述基本指令块组中的每个基本指令块进行向量化处理，得到每个恶意程序对应的向量组；对所有所述向量组中的向量进行聚类处理，得到聚类结果；根据聚类结果对每个聚类组确定名称标签，根据每个恶意程序对应的聚类组的名称标签确定每个恶意程序的名称标签。通过以基本指令块为粒度对恶意程序进行聚类分析，由于粒度大小降低，提高确定每个恶意程序名称标签的准确性。本申请还公开了一种基于机器学习的恶意程序样本聚类系统、服务器以及计算机可读存储介质，具有以上有益效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的恶意程序样本聚类方法及相关装置
本申请涉及计算机安全
，特别涉及一种基于机器学习的恶意程序样本聚类方法、恶意程序样本聚类系统、服务器以及计算机可读存储介质。
技术介绍
随着信息技术的不断发展，在信息安全防范技术中也需要不断加强对恶意程序的识别与监控。为了更好的对恶意程序在事发前进行拦截，少不了对已发现的恶意程序样本进行分析。目前，在恶意程序样本分析的过程中主要是对各种样本的相似性分析方法，提供的方法包括位图相似性，导入表相似性，运行流相似性，运行时行为相似性。其中，位图相似性是将样本以某种方法转化为某种图形，然后以相关算法进行相似性分析。导入表相似性是指将样本导入的功能模块及调用的函数进行相似性分析。运行流相似性是指将程序的运行流程表示为某种图形，然后以相关算法进行相似性分析。运行时行为相似性是指将样本运行时调用的系统函数，及使用的参数进行相似性分析。但是，位图相似性方法所选取表示像素的数据通常粒度较大，导入表方法只有导入模块和模块函数名等信息，运行流方法只包括模块之间的调用和转移关系，运行时行为方法只有运行时的行为，上述方案常受到运行环境...

【技术保护点】
1.一种基于机器学习的恶意程序样本聚类方法，其特征在于，包括：对多个恶意程序进行基本指令块提取，得到每个所述恶意程序对应的基本指令块组；根据指令序号字典对每个所述基本指令块组中的每个基本指令块进行向量化处理，得到每个恶意程序对应的向量组；对所有所述向量组中的向量进行聚类处理，得到聚类结果；根据聚类结果对每个聚类组确定名称标签，根据每个恶意程序对应的聚类组的名称标签确定每个恶意程序的名称标签。

【技术特征摘要】
1.一种基于机器学习的恶意程序样本聚类方法，其特征在于，包括：对多个恶意程序进行基本指令块提取，得到每个所述恶意程序对应的基本指令块组；根据指令序号字典对每个所述基本指令块组中的每个基本指令块进行向量化处理，得到每个恶意程序对应的向量组；对所有所述向量组中的向量进行聚类处理，得到聚类结果；根据聚类结果对每个聚类组确定名称标签，根据每个恶意程序对应的聚类组的名称标签确定每个恶意程序的名称标签。2.根据权利要求1所述的恶意程序样本聚类方法，其特征在于，对多个恶意程序进行基本指令块提取，得到每个所述恶意程序对应的基本指令块组，包括：对多个所述恶意程序进行反汇编处理，得到每个所述恶意程序对应的反汇编代码文件；对每个所述反汇编代码文件进行汇编指令提取，得到每个所述恶意程序对应的指令文件；根据基本指令块分割条件对每个指令文件进行分割，得到每个所述恶意程序对应的基本指令块组。3.根据权利要求2所述的恶意程序样本聚类方法，其特征在于，对多个所述恶意程序进行反汇编处理，得到每个所述恶意程序对应的反汇编代码文件，包括：根据所述恶意程序的文件头部信息对反汇编引擎进行参数配置；使用所述反汇编引擎对所述恶意程序进行反汇编，得到所述恶意程序对应的反汇编代码文件。4.根据权利要求2所述的恶意程序样本聚类方法，其特征在于，对每个所述反汇编代码文件进行汇编指令提取，得到每个所述恶意程序对应的指令文件，包括：将所述反汇编代码文件中的非汇编指令删除，得到汇编指令文件；对所述汇编指令文件中所有函数定义信息的位置添加分隔符，得到所述指令文件。5.根据权利要求2所述的恶意程序样本聚类方法，其特征在于，根据基本指令块分割条件对每个指令文件进行分割，得到每个所述恶意程序对应的基本指令块组，包括：根据所述指令文件中的基本指令块分割条件将所述指令文件中...

【专利技术属性】
技术研发人员：王俊杰，范渊，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人