一种文件的识别方法、设备以及计算机可读存储介质技术

技术编号:22056110 阅读:43 留言:0更新日期:2019-09-07 15:33
本发明专利技术实施例公开了一种文件的识别方法、设备以及计算机可读存储介质,所述方法包括获取待识别文件,将所述待识别文件进行分片以获取多个第一分片文件,获取第一熵向量,所述第一熵向量包括第一元素,计算所述第一熵向量与第二熵向量的相似度数值,根据所述相似度数值确定所述待识别文件和所述已识别文件是否相同。本实施例以第一分片文件的信息熵作为待识别文件的哈希,有着很强的鲁棒性,因通过熵向量判断已识别文件和待识别文件的相似性,则即便已识别文件所包括的任一分片文件插入或者删除,对于已识别文件的信息熵的改变较小,针对已识别文件的变种或者家族类的样本,有着良好的检测能力。

A Document Recognition Method, Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
一种文件的识别方法、设备以及计算机可读存储介质
本申请涉及文件检测领域,尤其涉及一种文件的识别方法、设备以及计算机可读存储介质。
技术介绍
近年来,恶意软件数量呈现爆发式增长,这给病毒文件检测带来很大的困难。现有技术中病毒文件检测主要使用消息摘要算法(MessageDigestAlgorithm,MD5)等方法进行病毒文件检测。但是,很多病毒文件通过修改了字节,或者插入和\或删除了字节等方法形成病毒文件的变种,而MD5等算法无法对与病毒文件的相似度较高的病毒文件的变种进行有效的检测,从而降低了病毒文件检测的准确性以及效率。
技术实现思路
本专利技术实施例提供了一种能够有效的提升病毒文件检测准确性以及效率的文件的识别方法、设备以及计算机可读存储介质。本专利技术实施例第一方面提供了一种文件的识别方法,包括:获取待识别文件;将所述待识别文件进行分片以获取多个第一分片文件;获取第一熵向量,所述第一熵向量包括第一元素,所述第一元素为所述第一熵向量所包括的多个元素中的任一元素,且所述第一元素为第一分片文件的信息熵和权重的积,所述第一分片文件为所述多个第一分片文件中的一个分片文件;计算所述第一熵向量与本文档来自技高网...

【技术保护点】
1.一种文件的识别方法,其特征在于,包括:获取待识别文件;将所述待识别文件进行分片以获取多个第一分片文件;获取第一熵向量,所述第一熵向量包括第一元素,所述第一元素为所述第一熵向量所包括的多个元素中的任一元素,且所述第一元素为第一分片文件的信息熵和权重的积,所述第一分片文件为所述多个第一分片文件中的一个分片文件;计算所述第一熵向量与第二熵向量的相似度数值,所述第二熵向量为与已识别文件对应的向量;根据所述相似度数值确定所述待识别文件和所述已识别文件是否相同。

【技术特征摘要】
1.一种文件的识别方法,其特征在于,包括:获取待识别文件;将所述待识别文件进行分片以获取多个第一分片文件;获取第一熵向量,所述第一熵向量包括第一元素,所述第一元素为所述第一熵向量所包括的多个元素中的任一元素,且所述第一元素为第一分片文件的信息熵和权重的积,所述第一分片文件为所述多个第一分片文件中的一个分片文件;计算所述第一熵向量与第二熵向量的相似度数值,所述第二熵向量为与已识别文件对应的向量;根据所述相似度数值确定所述待识别文件和所述已识别文件是否相同。2.根据权利要求1所述的识别方法,其特征在于,所述获取第一熵向量之前,所述方法还包括:基于哈希算法计算所述第一分片文件的信息熵;获取预置的所述权重;确定所述第一元素,所述第一元素为所述第一分片文件的信息熵和所述权重的积。3.根据权利要求1或2所述的识别方法,其特征在于,所述计算所述第一熵向量与第二熵向量的相似度数值之前,所述方法还包括:获取所述已识别文件;将所述已识别文件进行分片以获取多个第二分片文件,且所述第一分片文件和所述第二分片文件的数量相同;获取所述第二熵向量,所述第二熵向量包括第二元素,所述第二元素为所述第二熵向量所包括的多个元素中的任一元素,且所述第二元素为第二分片文件的信息熵和所述权重的积,所述第二分片文件为所述多个第二分片文件中的一个分片文件。4.根据权利要求3所述的识别方法,其特征在于,所述第一熵向量为x=(x1,x2,x3,...,xn)T,xn为所述第一熵向量所包括的第n个元素,所述第二熵向量为y=(y1,y2,y3,...,yn)T,yn为所述第二熵向量所包括的第n个元素,维度T等于所述第一熵向量所包括的元素的数量,所述计算所述第一熵向量与第二熵向量的相似度数值包括:基于第一公式计算所述第一熵向量与第二熵向量的相似度数值s,其中,所述第一公式为:所述根据所述相似度数值确定所述待识别文件和所述已识别文件是否相同包括:若确定出所述相似度数值大于或等于第一预设值,则确定出所述待识别文件和所述已识别文件相同;若确定出所述相似度数值小于所述第一预设值,则确定出所述待识别文件和所述已识别文件不相同。5.根据权利要求3所述的识别方法,其特征在于,所述第一熵向量为x=(x1,x2,x3,...,xn)T,xn为所述第一熵向量所包括的第n个元素,所述第二熵向量为y=(y1,y2,y3,...,yn)T,yn为所述第二熵向量所包括的第n个元素,维度T等于所述第一熵向量所包括的元素的数量,所述计算所述第一熵向量与第二熵向量的相似度数值包括:基于第二公式计算所述第一熵向量与第二熵向量的相似度数值d,其中,所述第二公式为:其中,xi为所述第一熵向量所包括的任一元素,yi为所述第二熵向量所包括的任一元素;所述根据所述相似度数值确定所述待识别文件和所述已识别文件是否相同包括:若确定出所述相似度数值小于或等于第二预设值,则确定出所述待识别文件和所述已识别文件相同;若确定出所述相似度数值大于所述第二预设值,则确定出所述待识别文件和所述已识别文件不相同。6.一种电子设备,其特征在于,包括:第一获取单元,用于获取待识别文件;第一分片单元,用于将所述待识别文件进行分片以获取多个第一分片文件;第二获取单元,用于获取第一熵向量,所述第一熵向量包括第一元素,所述第一元素为所述第一熵向量所包括的多个元素中的任一元素,且所述第一元素...

【专利技术属性】
技术研发人员:张壮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1