PE文件的处理方法及装置制造方法及图纸

技术编号:14690846 阅读:31 留言:0更新日期:2017-02-23 13:26
本发明专利技术公开了一种PE文件的处理方法及装置,其中,所述方法包括:对PE文件进行反汇编处理,得到所述PE文件的函数哈希;加载样本库,根据所述样本库中样本的函数哈希对所述PE文件的函数哈希进行相似度匹配;根据函数哈希相似度匹配结果,对所述PE文件进行聚类。本发明专利技术通过根据样本库中样本的函数哈希对PE文件的函数哈希进行相似度匹配的匹配结果,对PE文件进行聚类,实现基于PE文件的函数哈希的聚类处理,能够有效地提高PE文件的聚类准确率,进而有效地实现PE类的恶意文档的检测。

【技术实现步骤摘要】

本专利技术涉及信息安全
,尤其涉及一种PE文件的处理方法及装置
技术介绍
PE(PortableExecute,可移植的执行体)文件是微软Windows操作系统上的程序文件,常见的PE文件有EXE、DLL、OCX、SYS、COM等格式的文件,此外,PE文件也可以是间接被执行的文件,如DLL格式的文件。目前对PE类恶意文档的检测,需要将PE文件进行分类聚类,即将具有相同恶意程序特征的PE文件划分到一起,将不具有恶意程序特征的PE文件划分到一起。目前,主要是基于PE头的特征提取,以及类似PE文件图标的,基于机器学习的聚类。但是,现有实现PE文件的聚类方法,准确率比较低,进而无法有效地实现PE类的恶意文档的检测。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的PE文件的处理方法及装置。本专利技术的一个方面,提供了一种PE文件的处理方法,包括:对PE文件进行反汇编处理,得到所述PE文件的函数哈希;加载样本库,根据所述样本库中样本的函数哈希对所述PE文件的函数哈希进行相似度匹配;根据函数哈希相似度匹配结果,对所述PE文件进行聚类。可选地,所述对PE文件进行反汇编处理,得到所述PE文件的函数哈希,包括:对PE文件进行反汇编处理,得到所述PE文件的函数结点,根据所述函数结点将所述PE文件分为若干个函数哈希。可选地,所述根据函数哈希相似度匹配结果,对所述PE文件进行聚类,包括:计算PE文件的函数哈希与函数样本的函数哈希之间的相似度;判断所述函数哈希相似度是否高于第一预定阈值;若所述函数哈希相似度高于所述第一预定阈值,将所述PE文件与所述样本聚为一类。可选地,该方法还包括:若所述函数哈希相似度低于或等于所述第一预定阈值,则对PE文件进行反汇编处理,得到所述PE文件的汇编代码;根据所述样本库中的样本的汇编代码对所述PE文件的汇编代码进行相似度匹配;根据汇编代码相似度匹配结果,对所述PE文件进行聚类。可选地,在所述对PE文件进行反汇编处理,得到所述PE文件的汇编代码之后,包括:对所述PE文件的汇编代码进行去随机化处理。可选地,所述根据汇编代码相似度匹配结果,对所述PE文件进行聚类,具体包括:计算PE文件的汇编代码与样本的汇编代码之间的相似度;判断所述汇编代码相似度是否高于第二预定阈值;若所述汇编代码相似度高于所述第二预定阈值,则将所述PE文件与所述样本聚为一类。可选地,该方法还包括:若所述汇编代码相似度低于或等于所述第二预定阈值,则对PE文件进行反汇编处理,得到所述PE文件的伪C代码;根据所述样本库中的样本的伪C代码对所述PE文件的伪C代码进行相似度匹配;根据伪C代码相似度匹配结果,对所述PE文件进行聚类。可选地,在所述对PE文件进行反汇编处理,得到所述PE文件的伪C代码之后,包括:对所述PE文件的伪C代码进行去随机化处理。可选地,该方法还包括:根据聚类结果进行恶意文档的检测。可选地,该方法还包括:选取根据函数哈希相似度、汇编代码相似度和伪C代码相似度未进行聚类的PE文件;根据所述未进行聚类的PE文件建立新的样本。本专利技术的另一个方面,提供了一种PE文件的处理装置,包括:处理模块,用于对PE文件进行反汇编处理,得到所述PE文件的函数哈希;匹配模块,用于加载样本库,根据所述样本库中样本的函数哈希对所述处理模块得到的PE文件的函数哈希进行相似度匹配;聚类模块,用于根据所述匹配模块得到的函数哈希相似度匹配结果,对所述PE文件进行聚类。可选地,所述处理模块,具体用于对PE文件进行反汇编处理,得到所述PE文件的函数结点,根据所述函数结点将所述PE文件分为若干个函数哈希。可选地,所述聚类模块,包括:第一计算单元,用于计算PE文件的函数哈希与函数样本的函数哈希之间的相似度;第一判断单元,用于判断所述函数哈希相似度是否高于第一预定阈值;第一聚类单元,用于当所述第一判断单元的判断结果为所述函数哈希相似度高于所述第一预定阈值时,将所述PE文件与所述样本聚为一类。可选地,所述处理模块,还用于当所述第一判断单元的判断结果为所述函数哈希相似度小于或等于所述第一预定阈值时,对PE文件进行反汇编处理,得到所述PE文件的汇编代码;所述匹配模块,还用于根据所述样本库中的样本的汇编代码样本对所述PE文件的汇编代码进行相似度匹配;所述聚类模块,还用于根据汇编代码相似度匹配结果,对所述PE文件进行聚类。可选地,所述处理模块,还用于在对PE文件进行反汇编处理,得到所述PE文件的汇编代码之后,对所述PE文件的汇编代码进行去随机化处理。可选地,所述聚类模块,还包括:第二计算单元,用于计算PE文件的汇编代码与样本的汇编代码之间的相似度;第二判断单元,用于判断所述汇编代码相似度是否高于第二预定阈值;第二聚类单元,用于当所述第二判断单元的判断结果为所述汇编代码相似度高于所述第二预定阈值时,将所述PE文件与所述样本聚为一类。可选地,所述处理模块,还用于当所述第二判断单元的判断结果为所述汇编代码相似度小于或等于所述第二预定阈值时,对PE文件进行反汇编处理,得到所述PE文件的伪C代码;所述匹配模块,还用于根据所述样本库中的样本的伪C代码对所述PE文件的伪C代码进行相似度匹配;所述聚类模块,还用于根据伪C代码相似度匹配结果,对所述PE文件进行聚类。可选地,所述处理模块,还用于在对PE文件进行反汇编处理,得到所述PE文件的伪C代码之后,对所述PE文件的伪C代码进行去随机化处理。可选地,该装置还包括:检测模块,用于根据聚类结果进行恶意文档的检测。可选地,该装置还包括:配置模块,用于选取根据函数哈希相似度、汇编代码相似度和伪C代码相似度未进行聚类的PE文件;根据所述未进行聚类的PE文件建立新的样本。本专利技术实施例提供的PE文件的处理方法及装置,通过根据样本库中样本的函数哈希对PE文件的函数哈希进行相似度匹配的匹配结果,对PE文件进行聚类,实现基于PE文件的函数哈希的聚类处理,提高了PE文件的聚类准确率,进而能够有效地实现PE类的恶意文档的检测。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一种PE文件的处理方法的流程图;图2示出了根据本专利技术另一实施例的一种PE文件的处理方法的流程图;图3示出了根据本专利技术另一实施例的一种PE文件的处理方法的流程图;图4示出了根据本专利技术另一实施例的一种PE文件的处理方法的流程图;图5示出了根据本专利技术另一实施例的一种PE文件的处理方法的流程图;图6示出了根据本专利技术另一实施例的一种PE文件的处理方法的流程图;图7示出了根据本专利技术一个实施例的一种PE文件的处理装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被本文档来自技高网...
PE文件的处理方法及装置

【技术保护点】
一种PE文件的处理方法,包括:对PE文件进行反汇编处理,得到所述PE文件的函数哈希;加载样本库,根据所述样本库中样本的函数哈希对所述PE文件的函数哈希进行相似度匹配;根据函数哈希相似度匹配结果,对所述PE文件进行聚类。

【技术特征摘要】
1.一种PE文件的处理方法,包括:对PE文件进行反汇编处理,得到所述PE文件的函数哈希;加载样本库,根据所述样本库中样本的函数哈希对所述PE文件的函数哈希进行相似度匹配;根据函数哈希相似度匹配结果,对所述PE文件进行聚类。2.根据权利要求1所述的方法,所述对PE文件进行反汇编处理,得到所述PE文件的函数哈希,包括:对PE文件进行反汇编处理,得到所述PE文件的函数结点,根据所述函数结点将所述PE文件分为若干个函数哈希。3.根据权利要求1或2所述的方法,所述根据函数哈希相似度匹配结果,对所述PE文件进行聚类,包括:计算PE文件的函数哈希与函数样本的函数哈希之间的相似度;判断所述函数哈希相似度是否高于第一预定阈值;若所述函数哈希相似度高于所述第一预定阈值,将所述PE文件与所述样本聚为一类。4.根据权利要求3所述的方法,该方法还包括:若所述函数哈希相似度低于或等于所述第一预定阈值,则对PE文件进行反汇编处理,得到所述PE文件的汇编代码;根据所述样本库中的样本的汇编代码对所述PE文件的汇编代码进行相似度匹配;根据汇编代码相似度匹配结果,对所述PE文件进行聚类。5.根据权利要求4所述的方法,在所述对PE文件进行反汇编处理,得到所述PE文件的汇编代码之后,包括:对所述PE文件的汇编代码进行...

【专利技术属性】
技术研发人员:计东韩鹏
申请(专利权)人:北京奇虎科技有限公司北京奇安信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1