基于语义分割的恶意软件基因快速检测方法和装置制造方法及图纸

技术编号:20623132 阅读:19 留言:0更新日期:2019-03-20 14:41
本发明专利技术提供了一种基于语义分割的恶意软件基因快速检测方法及装置,由基因库训练后的语义分割模型可极大提高实时样本的匹配检测效率,被训练后的语义分割模型不需要携带基因库的特性甚至可嵌入离线实时安全产品中;自动抽象特征提取特性及后续成熟的优化技术可提高恶意变形的基因识别正确率。

A Rapid Detection Method and Device for Malware Genes Based on Semantic Segmentation

The present invention provides a rapid detection method and device for malicious software genes based on semantic segmentation. The semantic segmentation model trained by gene library can greatly improve the efficiency of matching detection of real-time samples. The trained semantic segmentation model does not need to carry the characteristics of gene library, and can even be embedded in off-line real-time security products; the automatic abstract feature extraction characteristics and the advantages of subsequent maturity. Chemical technology can improve the correct rate of gene recognition for malicious deformation.

【技术实现步骤摘要】
基于语义分割的恶意软件基因快速检测方法和装置
本专利技术涉及信息安全
,具体而言,涉及一种基于语义分割的恶意软件基因快速检测方法和装置。
技术介绍
恶意软件基因提取及识别技术大概于2008年左右被提出,前期主要将使用的特定个人习惯的代码片段提取为基因用于识别恶意软件开发者或APT组织,后续逐渐扩大加入恶意软件家族基因用于识别其变种迭代和新家族判断。目前,常规的恶意软件基因匹配技术有两大问题:1.基因库的规模随恶意软件数量的增加而呈指数级增长,带来常规检索和匹配方式效率低下,甚至无法落地应用;2.庞大的基因库无法嵌入安全产品或离线部署;3.常规模糊匹配技术或人工经验形成的预处理技术,对恶意变形的基因识别正确率较差。
技术实现思路
针对上述现有技术中存在的问题,本专利技术提供了一种基于语义分割的恶意软件基因快速检测方法和装置。第一方面,本专利技术实施例提供了一种基于语义分割的恶意软件基因快速检测方法,所述方法包括:将待检测样本进行反汇编成待检测反汇编代码;将待检测反汇编代码转化成待检测图片;将所述待检测图片输入语义分割模型,输出解析图片;根据所述解析图片,得到检测结果。进一步的,所述语义分割模型训练方法包括:获取基础样本,并对所述基础样本进行反汇编成样本反汇编代码;将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集;利用上所述数据集训练原有语义分割模型形成语义分割模型。进一步的,将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集,包括:将所述数据集按7:2:1的比例分为训练集、验证集和交叉测试集。进一步的,利用上所述数据集训练原有语义分割模型形成语义分割模型,包括:利用训练集、验证集和交叉测试集来训练测试原有语义分割模型。进一步的,将所述待检测图片输入语义分割模型,输出解析图片之后,所述方法还包括:根据待检测反汇编代码和预设标识数组优化解析图片;第二方面,本专利技术实施例还提供了一种基于语义分割的恶意软件基因快速检测装置,所述装置包括:反汇编模块,用于将待检测样本进行反汇编成待检测反汇编代码;转化模块,用于将待检测反汇编代码转化成待检测图片;解析模块,用于将所述待检测图片输入语义分割模型,输出解析图片;检测模块,用于根据所述解析图片,得到检测结果。进一步的,所述装置还包括训练模块;所述训练模块用于:获取基础样本,并对所述基础样本进行反汇编成样本反汇编代码;将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集;利用上所述数据集训练原有语义分割模型形成语义分割模型。进一步的,所述训练模块还用于:将所述数据集按7:2:1的比例分为训练集、验证集和交叉测试集。进一步的,所述训练模块还用于:利用训练集、验证集和交叉测试集来训练测试原有语义分割模型。第三方面,本专利技术实施例提供了一种计算机存储介质,用于储存为第二方面所述的装置所用的计算机软件指令。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种基于语义分割的恶意软件基因快速检测方法及装置,由基因库训练后的语义分割模型可极大提高实时样本的匹配检测效率,被训练后的语义分割模型不需要携带基因库的特性甚至可嵌入离线实时安全产品中;自动抽象特征提取特性及后续成熟的优化技术可提高恶意变形的基因识别正确率。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一实施例所提供的一种基于语义分割的恶意软件基因快速检测方法的流程图;图2为本专利技术实施例所提供的一种基于语义分割的恶意软件基因快速检测方法的流程图;图3为本专利技术实施例二中所提供的一种基于语义分割的恶意软件基因快速检测方法的流程图;图4为本专利技术第三实施例所提供的一种基于语义分割的恶意软件基因快速检测装置的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一由于常规的恶意软件基因匹配技术存在的问题,因此提出一个利用语义分割模型来检测恶意软件基因。语义分割是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入如图片分为不同的语义可解释类别,这些分类类别在真实世界中是有意义的。例如:将需要区分的图像中属于汽车的所有像素标识成蓝色。与图像分类或目标检测相比,语义分割对图像有更加细致的分类标识。这使其在诸如自动驾驶、机器人以及图像搜索引擎等许多领域成为核心技术。将语义分割技术与恶意软件基因检测相结合能够缓解目前恶意软件基因检测中存在的一些问题。参见图1所示的一种基于语义分割的恶意软件基因快速检测方法的流程图,该方法应用于具体包括如下步骤:S101.将待检测样本进行反汇编成待检测反汇编代码;其中,待检测样本可以为文本形式的文件也可以为二进制代码的文件。S102.将待检测反汇编代码转化成待检测图片;具体来说,反汇编代码根据转换规则转化成待检测图片,其中待检测图片为灰度图。转换规则为预先设置好的,例如,反汇编代码中出现“0011”可代表图像有一个正方形块区。S103.将所述待检测图片输入语义分割模型,输出解析图片;在语义分割模型中,存在一个基因,数据集的图片中存在这个基因,语义分割模型经由数据集训练之后,识别所述待检测图片中的基因,输出解析图片。S104.根据所述解析图片,得到检测结果。具体来说,图片中的基因对应着一段代码,这段代码为软件基因,根据图片中的基因查找器对应的待检测样本中的软件基因,检测出软件基因的位置和功能。所述语义分割模型训练方法包括:如图2所示,S11.获取基础样本,并对所述基础样本进行反汇编成样本反汇编代码;S12.将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集;进一步来说,可以对所述数据集中的图片数据进行清洗标注,去掉所述数据集中的杂质数据图片。S13.利用上所述数据集训练原有语义分割模型形成语义分割模型。数据集中均包含着一个图形,这个图形成为基因,利用数据集训练语义分割模型的目的在于,利用语义分割模型识别出待检测图片中的基因。实施例二参见图3所示的一种基于语义分割的恶意软件基因快速检测的流程图,该方法在实施例一中提供的基于语义分割的恶意软件基因快速检测方法的基础上实现,具体包括如下步骤:S201.将待检测样本本文档来自技高网...

【技术保护点】
1.一种基于语义分割的恶意软件基因快速检测方法,其特征在于,所述方法包括:将待检测样本进行反汇编成待检测反汇编代码;将待检测反汇编代码转化成待检测图片;将所述待检测图片输入语义分割模型,输出解析图片;根据所述解析图片,得到检测结果。

【技术特征摘要】
1.一种基于语义分割的恶意软件基因快速检测方法,其特征在于,所述方法包括:将待检测样本进行反汇编成待检测反汇编代码;将待检测反汇编代码转化成待检测图片;将所述待检测图片输入语义分割模型,输出解析图片;根据所述解析图片,得到检测结果。2.根据权利要求1所述的方法,其特征在于,所述语义分割模型训练方法包括:获取基础样本,并对所述基础样本进行反汇编成样本反汇编代码;将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集;利用上所述数据集训练原有语义分割模型形成语义分割模型。3.根据权利要求2所述的方法,其特征在于,将样本反汇编代码转化成样本图片,并且将所述样本图片整理成数据集,包括:将所述数据集按7:2:1的比例分为训练集、验证集和交叉测试集。4.根据权利要求3所述的方法,其特征在于,利用上所述数据集训练原有语义分割模型形成语义分割模型,包括:利用训练集、验证集和交叉测试集来训练测试原有语义分割模型。5.根据权利要求1所述的方法,其特征在于,将所述待检测图片输入语义分割模型,输出解析图片之后,所述方法还包括:根据待检测...

【专利技术属性】
技术研发人员:涂小毅范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1