基于深度学习方法推断恶意代码规则的方法、系统及设备技术方案

技术编号：15437795 阅读：62 留言：0更新日期：2017-05-26 03:47

本发明专利技术公开了基于深度学习方法推断恶意代码规则的方法、系统及终端设备，创造性的将word2vec思想应用于恶意代码分析领域，对已知的恶意代码的字符串进行训练，得到恶意代码字符串关联性最大的字符串，进而得到该恶意代码的字符串规则。本发明专利技术能充分利用恶意样本的特征推断出误报率低、覆盖率高的恶意代码规则，以优化现有病毒检测引擎，提升恶意代码检测效率。本发明专利技术能广泛应用于恶意代码检测及恶意代码分析领域。

Method, system and apparatus for inferring malicious code rules based on depth learning method

The invention discloses a method, system and terminal equipment deep learning method to infer the malicious code based on rules, creative word2vec was used in malicious code analysis, a string of malicious code on the known training, get the string related malicious code strings, then the string rules of the malicious code. The invention can make full use of the characteristics of the malicious samples and deduce the rules of malicious code with low false positive rate and high coverage, so as to optimize the existing virus detection engines and improve the efficiency of malicious code detection. The invention can be widely applied to the field of malicious code detection and malicious code analysis.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习方法推断恶意代码规则的方法、系统及设备相关申请的交叉引用本申请要求武汉安天信息技术有限责任公司于2015年11月17日提交的、专利技术名称为“基于深度学习方法推断恶意代码规则的方法及系统”的、中国专利申请号“201510787438.3”的优先权。
本专利技术涉及移动网络安全
，尤其涉及基于深度学习方法推断恶意代码规则的方法及系统。
技术介绍
近年来，随着Android系统的流行，针对Android平台的攻击也日益增加。2016年第三季度，以安天AVLSDK服务为基础的中国绝大多数ROM安全扫描截获的新增恶意软件包每天超过10万个，其中Android平台的恶意软件包占据了总数的92％，呈连续递增趋势。Android系统面临着严重的安全威胁。与此同时，针对智能手机的安全研究也成为了全球安全研究的重点。M.Miettinen和P.Halonen对移动智能设备面临的安全威胁以及智能设备安全检测中的主要挑战和不足做了详尽的分析。AbhijitBose等人在论文中提出了一个全新的智能手机异常检测模型，与M.Miettinen和P.Halonen最大的不同是，该模型采用的异常检测对象是智能手机上正在运行的应用，他们采用基于因果关系的时间逻辑描述智能手机应用的行为模式，并使用SVM机器学习方法进行异常检测分析。可以看到现有的智能手机安全研究基本集中在通用的基于行为模式的异常检测。对于特定智能手机平台，例如Android，并没有研究人员对该平台的恶意软件行为模式(或称为恶意代码规则)进行研究和总结。可以理解的，基于海量的新增样本，充分解决筛分问题成了最重...
基于深度学习方法推断恶意代码规则的方法、系统及设备

【技术保护点】
一种基于深度学习方法推断恶意代码规则的方法，其特征在于，包括：将带有恶意代码的dex文件解析成字符串，并根据预设规则从所述字符串中提取出关键字符串；利用word2vec思想对所述关键字符串进行训练，得到第一训练结果；通过所述第一训练结果，构建恶意样本特征向量；根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串，并对所述预设范围内的字符串再次利用word2vec思想进行训练，得到第二训练结果；基于所述第二训练结果获得恶意代码字符串规则。

【技术特征摘要】
2015.11.17 CN 20151078743831.一种基于深度学习方法推断恶意代码规则的方法，其特征在于，包括：将带有恶意代码的dex文件解析成字符串，并根据预设规则从所述字符串中提取出关键字符串；利用word2vec思想对所述关键字符串进行训练，得到第一训练结果；通过所述第一训练结果，构建恶意样本特征向量；根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串，并对所述预设范围内的字符串再次利用word2vec思想进行训练，得到第二训练结果；基于所述第二训练结果获得恶意代码字符串规则。2.如权利要求1所述的方法，其特征在于，所述利用word2vec思想对所述关键字符串进行训练，具体为：对所述关键字符串进行特征提取，并根据所述特征推断出关联性最大的字符串，其中，所述关联性最大的字符串用于指示针对所述关键字符串的解释性的字符串。3.如权利要求1所述的方法，其特征在于，所述根据预设规则从所述字符串中提取出关键字符串，包括：选取对照样本，并计算所述对照样本中的字符串与所述带有恶意代码的dex文件的字符串之间的距离；根据所述距离以及预设的距离阈值，从所述带有恶意代码的dex文件的字符串中提取出所述关键字符串。4.如权利要求1所述的方法，其特征在于，所述关键字符串包括函数调用关系和代码结构上下文中的用于描述所述dex文件内容字符串关系的内容。5.如权利要求1所述的方法，其特征在于，所述构建恶意样本特征向量为：基于样本属性数据，归纳n个样本属性数据，并基于所述n个样本属性数据，计算属性数据的向量，并计算所述属性数据的向量两两相似度矩阵，保留主要向量，累加所有所述主要向量的各维度分量。6.如权利要求5所述的方法，其特征在于，所述保留主要向量，累加所有所述主要向量的各维度分量，包括：将两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量进行保留；将所述保留的属性数据的向量作为所述恶意样本特征向量，其中，针对所述保留的属性数据的向量，对相同的属性数据的向量的各维度分量进行累加。7.如权利要求1所述的方法，其特征在于，所述基于训练结果获得恶意代码字符串规则，具体为：通过获得关联性最大的字符串，找出关联性字符串之间的字符串特征，最终根据所述关联性字符串之间的字符串特征获得恶意代码字符串规则。8.如权利要求7所述的方法，其特征在于，通过文档主题生成模型LDA将所述关联性字符串之间的字符串特征进行特征提取以获得所述恶意代码字符串规则。9.一种基于深度学习方法推断恶意代码规则的系统，其特征在于，包括：解析模块，用于将带有恶意代码的dex文件解析成字符串，并根据预设规则从所述字符串中提取出关键字符串；训练模块，用于利用...

【专利技术属性】
技术研发人员：潘宣辰，孙岩，马志远，
申请(专利权)人：武汉安天信息技术有限责任公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人