一种安全文件的识别方法及装置制造方法及图纸

技术编号:12484136 阅读:61 留言:0更新日期:2015-12-10 22:07
本发明专利技术实施例提供了一种安全文件的识别方法及装置。一方面,本发明专利技术实施例通过根据待识别文件,获得与所述待识别文件相匹配的已知安全文件;从而,获得所述待识别文件与所述已知安全文件的相似度;进而,根据所述待识别文件与所述已知安全文件的相似度,识别所述待识别文件是否为安全文件。因此,本发明专利技术实施例提供的技术方案用以解决现有技术中安全文件的识别率比较低的问题。

【技术实现步骤摘要】
【专利说明】一种安全文件的识别方法及装置
本专利技术涉及网络安全
,尤其涉及一种安全文件的识别方法及装置。 【
技术介绍
】 随着互联网和通信技术在最近几年的迅速发展,各种各样的应用在不断地出现, 并快速的迭代更新,每天都会产生很多应用的相关文件。因此,安全系统会捕获到很多未知 文件,这些未知文件中既有安全文件,也有恶意文件,因此需要从众多的未知文件中识别出 安全文件。 现有技术中,是利用未知文件的数据签名,在预设的白名单中进行查找。如果该未 知文件属于白名单,则识别出该未知文件是安全文件,反之则识别出该未知文件是非安全 文件。然而,应用的新增速度以及更新速度非常快,使得相关文件也出现的很快且数量庞 大,因此,利用现有技术中基于未知文件的数据签名和白名单的方式,实现的安全文件的识 别技术将无法满足目前安全文件的识别需求,从而导致安全文件的识别率比较低。 【
技术实现思路
】 有鉴于此,本专利技术实施例提供了一种安全文件的识别方法及装置,用以解决现有 技术中安全文件的识别率比较低的问题。 本专利技术实施例的一方面,提供一种安全文件的识别方法,包括: 根据待识别文件,获得与所述待识别文件相匹配的已知安全文件; 获得所述待识别文件与所述已知安全文件的相似度; 根据所述待识别文件与所述已知安全文件的相似度,识别所述待识别文件是否为 安全文件。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据待 识别文件,获得与所述待识别文件相匹配的已知安全文件,包括: 根据所述待识别文件的详细信息,在数据库中进行匹配,以获得与所述待识别文 件相匹配的已知安全文件;其中,所述数据库包含已知安全文件的详细信息。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所 述待识别文件与所述已知安全文件的相似度,包括: 获得所述待识别文件的代码块指纹; 根据所述待识别文件的代码块指纹与所述已知安全文件的代码块指纹,获得所述 待识别文件与所述已知安全文件的相似度。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所 述待识别文件的代码块指纹,包括: 对所述待识别文件进行反编译处理,以获得所述待识别文件的反编译代码; 获得所述反编译代码所包含的至少一个代码块; 获得每个所述代码块的指纹信息; 根据每个所述代码块的指纹信息,获得所述待识别文件的代码块指纹。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述代 码块的指纹信息包括: 每个所述代码块的指令结构特征;以及, 根据每个所述代码块中部分指令获得的哈希值。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所 述待识别文件与所述已知安全文件的相似度,包括: 利用如下公式获得所述待识别文件与所述已知安全文件的相似度: 该公式中,C表示所述待识别文件与所述已知安全文件的相似度;所述A表示所述 待识别文件的代码块指纹;所述B表示所述已知安全文件的代码块指纹;F(A η B)表示所 述待识别文件的代码块指纹与所述已知安全文件的代码块指纹的交集中代码块指纹的步 长的累加和;F(Α η Β)表示所述待识别文件的代码块指纹与所述已知安全文件的代码块指 纹的并集中代码块指纹的步长的累加和。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所 述待识别文件与所述已知安全文件的相似度,识别所述待识别文件是否为安全文件,包 括: 若所述待识别文件与所述已知安全文件的相似度大于预设的相似阈值,识别出所 述待识别文件是安全文件。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还 包括: 若识别出所述待识别文件是安全文件,将所述待识别文件添加到所述数据库。 本专利技术实施例的一方面,提供一种安全文件的识别装置,包括: 文件查找单元,用于根据待识别文件,获得与所述待识别文件相匹配的已知安全 文件; 相似统计单元,用于获得所述待识别文件与所述已知安全文件的相似度; 文件识别单元,用于根据所述待识别文件与所述已知安全文件的相似度,识别所 述待识别文件是否为安全文件。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述文件查 找单元,具体用于: 根据所述待识别文件的详细信息,在数据库中进行匹配,以获得与所述待识别文 件相匹配的已知安全文件;其中,所述数据库包含已知安全文件的详细信息。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述相似统 计单元,具体用于: 获得所述待识别文件的代码块指纹; 根据所述待识别文件的代码块指纹与所述已知安全文件的代码块指纹,获得所述 待识别文件与所述已知安全文件的相似度。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述相似统 计单元用于获得所述待识别文件的代码块指纹时,具体用于: 对所述待识别文件进行反编译处理,以获得所述待识别文件的反编译代码; 获得所述反编译代码所包含的至少一个代码块; 获得每个所述代码块的指纹信息; 根据每个所述代码块的指纹信息,获得所述待识别文件的代码块指纹。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述代 码块的指纹信息包括: 每个所述代码块的指令结构特征;以及, 根据每个所述代码块中部分指令获得的哈希值。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述相似统 计单元用于获得所述待识别文件与所述已知安全文件的相似度时,具体用于: 利用如下公式获得所述待识别文件与所述已知安全文件的相似度: C=(F(AnB)V(F(AUB))XK)O 该公式中,C表示所述待识别文件与所述已知安全文件的相似度;所述A表示所述 待识别文件的代码块指纹;所述B表示所述已知安全文件的代码块指纹;F(A η B)表示所 述待识别文件的代码块指纹与所述已知安全文件的代码块指纹的交集中代码块指纹的步 长的累加和;F(Α η Β)表示所述待识别文件的代码块指纹与所述已知安全文件的代码块指 纹的并集中代码块指纹的步长的累加和。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述文件识 别单元,具体用于: 若所述待识别文件与所述已知安全文件的相似度大于预设的相似阈值,识别出所 述待识别文件是安全文件。 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还 包括: 文件添加单元,用于若识别出所述待识别文件是安全文件,将所述待识别文件添 加到所述数据库。 由以上技术方案可以看出,本专利技术实施例具有以下有益效果: 本专利技术实施例提供的技术方案中,利用已知安全文件与待识别文件的相似度,来 识别待识别文件是否为安全文件,相当于通过对待识别文件与已知安全文件是否属于同源 文件的判别,来识别出待识别文件是否为安全文件,因此,能够快速识别出安全文件。与现 有技术中判断未知文件是否属于白名单的识别方式相比,本专利技术实施例能够识别出更多的 安全文件,满足目前安全文件的识别需求,提高了安全文件的识别率,因此解决了现有技术 中安全文件的识别率比较低的问题,从而可以减少用户侧不必要的弹窗数量,提升用户体 验。 【【附图说明】】 为了更清楚地说明本专利技术实施例的技术方案,本文档来自技高网...

【技术保护点】
一种安全文件的识别方法,其特征在于,所述方法包括:根据待识别文件,获得与所述待识别文件相匹配的已知安全文件;获得所述待识别文件与所述已知安全文件的相似度;根据所述待识别文件与所述已知安全文件的相似度,识别所述待识别文件是否为安全文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:党伟郭根邹荣新
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1