基于深度学习方法推断恶意代码规则的方法、系统及设备技术方案

技术编号:15437795 阅读:62 留言:0更新日期:2017-05-26 03:47
本发明专利技术公开了基于深度学习方法推断恶意代码规则的方法、系统及终端设备,创造性的将word2vec思想应用于恶意代码分析领域,对已知的恶意代码的字符串进行训练,得到恶意代码字符串关联性最大的字符串,进而得到该恶意代码的字符串规则。本发明专利技术能充分利用恶意样本的特征推断出误报率低、覆盖率高的恶意代码规则,以优化现有病毒检测引擎,提升恶意代码检测效率。本发明专利技术能广泛应用于恶意代码检测及恶意代码分析领域。

Method, system and apparatus for inferring malicious code rules based on depth learning method

The invention discloses a method, system and terminal equipment deep learning method to infer the malicious code based on rules, creative word2vec was used in malicious code analysis, a string of malicious code on the known training, get the string related malicious code strings, then the string rules of the malicious code. The invention can make full use of the characteristics of the malicious samples and deduce the rules of malicious code with low false positive rate and high coverage, so as to optimize the existing virus detection engines and improve the efficiency of malicious code detection. The invention can be widely applied to the field of malicious code detection and malicious code analysis.

【技术实现步骤摘要】
基于深度学习方法推断恶意代码规则的方法、系统及设备相关申请的交叉引用本申请要求武汉安天信息技术有限责任公司于2015年11月17日提交的、专利技术名称为“基于深度学习方法推断恶意代码规则的方法及系统”的、中国专利申请号“201510787438.3”的优先权。
本专利技术涉及移动网络安全
,尤其涉及基于深度学习方法推断恶意代码规则的方法及系统。
技术介绍
近年来,随着Android系统的流行,针对Android平台的攻击也日益增加。2016年第三季度,以安天AVLSDK服务为基础的中国绝大多数ROM安全扫描截获的新增恶意软件包每天超过10万个,其中Android平台的恶意软件包占据了总数的92%,呈连续递增趋势。Android系统面临着严重的安全威胁。与此同时,针对智能手机的安全研究也成为了全球安全研究的重点。M.Miettinen和P.Halonen对移动智能设备面临的安全威胁以及智能设备安全检测中的主要挑战和不足做了详尽的分析。AbhijitBose等人在论文中提出了一个全新的智能手机异常检测模型,与M.Miettinen和P.Halonen最大的不同是,该模型采用的异常检测对象是智能手机上正在运行的应用,他们采用基于因果关系的时间逻辑描述智能手机应用的行为模式,并使用SVM机器学习方法进行异常检测分析。可以看到现有的智能手机安全研究基本集中在通用的基于行为模式的异常检测。对于特定智能手机平台,例如Android,并没有研究人员对该平台的恶意软件行为模式(或称为恶意代码规则)进行研究和总结。可以理解的,基于海量的新增样本,充分解决筛分问题成了最重要的事情,从工程经验来看,一般先利用可靠的本地病毒检测引擎(后文简称“引擎”)解决筛分问题,即将已经发现的规则和样本进行过滤,检出已知恶意样本;而剩下的引擎难以判断的样本,一般还需要通过机器学习或人工分析再检测一次。从长远看来,这种检测方式效率低下,对于难以判断的恶意样本,应该通过科学合理的技术手段对其进行分析,以推断出能够优化现有引擎的恶意代码规则。可以理解的,引擎内包含的恶意代码检测规则越多则检测效率越高。另外,用于优化引擎的好的规则,一般还希望能同时满足两个指标:(1)误报率不能高,即提取的规则不能太宽泛;(2)覆盖率要高,即提取的规则要充分覆盖疑似样本集。
技术实现思路
针对上述技术问题,本专利技术提供了基于深度学习方法推断恶意代码规则的方法及系统,能充分利用恶意样本的特征推断出误报率低、覆盖率高的恶意代码规则,以优化现有病毒检测引擎,提升恶意代码检测效率。本专利技术提出了一种基于深度学习方法推断恶意代码规则的方法,包括:将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;利用word2vec思想对所述关键字符串进行训练,得到第一训练结果;通过所述第一训练结果,构建恶意样本特征向量;根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串,并对所述预设范围内的字符串再次利用word2vec思想进行训练,得到第二训练结果;基于所述第二训练结果获得恶意代码字符串规则。进一步的,所述利用word2vec思想对所述关键字符串进行训练,具体为:对所述关键字符串进行特征提取,并根据所述特征推断出关联性最大的字符串,其中,所述关联性最大的字符串用于指示针对所述关键字符串的解释性的字符串。进一步的,所述根据预设规则从所述字符串中提取出关键字符串,包括:选取对照样本,并计算所述对照样本中的字符串与所述带有恶意代码的dex文件的字符串之间的距离;根据所述距离以及预设的距离阈值,从所述带有恶意代码的dex文件的字符串中提取出所述关键字符串。进一步的,所述关键字符串包括函数调用关系和代码结构上下文中的用于描述所述dex文件内容字符串关系的内容。进一步的,所述构建恶意样本特征向量为:基于样本属性数据,归纳n个样本属性数据,并基于所述n个样本属性数据,计算属性数据的向量,并计算所述属性数据的向量两两相似度矩阵,保留主要向量,累加所有所述主要向量的各维度分量。进一步的,所述保留主要向量,累加所有所述主要向量的各维度分量,包括:将两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量进行保留;将所述保留的属性数据的向量作为所述恶意样本特征向量,其中,针对所述保留的属性数据的向量,对相同的属性数据的向量的各维度分量进行累加。进一步的,所述基于训练结果获得恶意代码字符串规则,具体为:通过获得关联性最大的字符串,找出关联性字符串之间的字符串特征,最终根据所述关联性字符串之间的字符串特征获得恶意代码字符串规则。进一步的,通过文档主题生成模型LDA将所述关联性字符串之间的字符串特征进行特征提取以获得所述恶意代码字符串规则。基于深度学习方法推断恶意代码规则的系统,包括:解析模块,用于将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;训练模块,用于利用word2vec思想对所述关键字符串进行训练,得到第一训练结果;构建模块,用于通过所述第一训练结果,构建恶意样本特征向量;再训练模块,用于根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串,并对所述预设范围内的字符串再次利用word2vec思想进行训练,得到第二训练结果;获取模块,用于基于所述第二训练结果获得恶意代码字符串规则。进一步的,所述训练模块具体用于:对所述关键字符串进行特征提取,并根据所述特征推断出关联性最大的字符串,其中,所述关联性最大的字符串用于指示针对所述关键字符串的解释性的字符串。进一步的,所述解析模块具体用于:利用蒙特卡洛方法选取对照样本,并计算所述对照样本中的字符串与所述带有恶意代码的dex文件的字符串之间的欧式距离;根据所述欧式距离以及预设的欧式距离阈值,从所述带有恶意代码的dex文件的字符串中提取出所述关键字符串。进一步的,所述构建模块中的构建恶意样本特征向量为基于样本属性数据,归纳n个样本属性数据,并基于所述n个样本属性数据,计算属性数据的向量,并计算所述属性数据的向量两两相似度矩阵,保留主要向量,累加所有所述主要向量的各维度分量。进一步的,所述构建模块中的保留主要向量,累加所有所述主要向量的各维度分量具体为:将两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量进行保留,并将所述保留的属性数据的向量作为所述恶意样本特征向量,其中,针对所述保留的属性数据的向量,对相同的属性数据的向量的各维度分量进行累加。进一步的,所述获取模块具体用于:通过获得关联性最大的字符串,找出关联性字符串之间的字符串特征,最终根据所述关联性字符串之间的字符串特征获得恶意代码字符串规则。进一步的,所述获取模块通过文档主题生成模型LDA将所述关联性字符串之间的字符串特征进行特征提取以获得所述恶意代码字符串规则。本专利技术提出了一种终端设备,包括:一个或者多个处理器;存储器;一个或多个程序,所述一个或者多个程序存储在所述存储器中,当被所述一个或者多个处理器执行时进行如下操作:将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;利用word2vec思想对所述关键字符串进行训练,得到第一训练结果;通过所述第一训练结果,构建恶意样本特本文档来自技高网
...
基于深度学习方法推断恶意代码规则的方法、系统及设备

【技术保护点】
一种基于深度学习方法推断恶意代码规则的方法,其特征在于,包括:将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;利用word2vec思想对所述关键字符串进行训练,得到第一训练结果;通过所述第一训练结果,构建恶意样本特征向量;根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串,并对所述预设范围内的字符串再次利用word2vec思想进行训练,得到第二训练结果;基于所述第二训练结果获得恶意代码字符串规则。

【技术特征摘要】
2015.11.17 CN 20151078743831.一种基于深度学习方法推断恶意代码规则的方法,其特征在于,包括:将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;利用word2vec思想对所述关键字符串进行训练,得到第一训练结果;通过所述第一训练结果,构建恶意样本特征向量;根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串,并对所述预设范围内的字符串再次利用word2vec思想进行训练,得到第二训练结果;基于所述第二训练结果获得恶意代码字符串规则。2.如权利要求1所述的方法,其特征在于,所述利用word2vec思想对所述关键字符串进行训练,具体为:对所述关键字符串进行特征提取,并根据所述特征推断出关联性最大的字符串,其中,所述关联性最大的字符串用于指示针对所述关键字符串的解释性的字符串。3.如权利要求1所述的方法,其特征在于,所述根据预设规则从所述字符串中提取出关键字符串,包括:选取对照样本,并计算所述对照样本中的字符串与所述带有恶意代码的dex文件的字符串之间的距离;根据所述距离以及预设的距离阈值,从所述带有恶意代码的dex文件的字符串中提取出所述关键字符串。4.如权利要求1所述的方法,其特征在于,所述关键字符串包括函数调用关系和代码结构上下文中的用于描述所述dex文件内容字符串关系的内容。5.如权利要求1所述的方法,其特征在于,所述构建恶意样本特征向量为:基于样本属性数据,归纳n个样本属性数据,并基于所述n个样本属性数据,计算属性数据的向量,并计算所述属性数据的向量两两相似度矩阵,保留主要向量,累加所有所述主要向量的各维度分量。6.如权利要求5所述的方法,其特征在于,所述保留主要向量,累加所有所述主要向量的各维度分量,包括:将两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量进行保留;将所述保留的属性数据的向量作为所述恶意样本特征向量,其中,针对所述保留的属性数据的向量,对相同的属性数据的向量的各维度分量进行累加。7.如权利要求1所述的方法,其特征在于,所述基于训练结果获得恶意代码字符串规则,具体为:通过获得关联性最大的字符串,找出关联性字符串之间的字符串特征,最终根据所述关联性字符串之间的字符串特征获得恶意代码字符串规则。8.如权利要求7所述的方法,其特征在于,通过文档主题生成模型LDA将所述关联性字符串之间的字符串特征进行特征提取以获得所述恶意代码字符串规则。9.一种基于深度学习方法推断恶意代码规则的系统,其特征在于,包括:解析模块,用于将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串;训练模块,用于利用...

【专利技术属性】
技术研发人员:潘宣辰孙岩马志远
申请(专利权)人:武汉安天信息技术有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1