表征文件以进行相似性搜索制造技术

技术编号:26850383 阅读:34 留言:0更新日期:2020-12-25 13:19
在一些实施方式中,一种由包括一个或多个计算机的文件表征系统所执行的对文件进行聚类的方法包括:接收文件;确定所述文件的格式;基于所述文件的格式来选择与所述格式相关联的一个或多个文件特征的集合;针对所述一个或多个文件特征的集合中的每个文件特征来从所述文件中提取用于所述文件特征的相应的特征值;以及基于所述特征值来生成所述文件的哈希。

【技术实现步骤摘要】
【国外来华专利技术】表征文件以进行相似性搜索
本说明书一般地涉及反病毒软件程序。
技术介绍
恶意软件常常破坏计算机操作并且在未经许可的情况下收集用户或组织的私人或敏感信息。反病毒软件用于检测恶意软件。为了推进反病毒软件并减少恶意软件攻击的发生和严重度,研究人员研究已经识别的恶意软件。通过逆向工程恶意软件程序,研究人员可改进检测算法。在一些情况下,当恶意软件研究人员识别恶意软件文件时,他们生成文件的哈希。一般而言,哈希不重叠,所以每个哈希唯一地识别文件。然而,因为哈希值是唯一的,所以这些哈希值无助于识别类似结构化恶意软件的系列。研究具有类似属性的恶意软件的系列允许研究人员识别恶意软件代码中的模式。在一些示例中,研究人员能够基于签名特征来识别一件特定恶意软件的起源或创建者。研究人员还可以跟踪一种类型的恶意软件的演变以协助预料或者更好地为将来的攻击做准备。文件包括提供描述通过特定文件所执行的操作的属性的信息和包含在特定文件内的数据的全局特征。例如,公共全局特征是文件格式,其指定如何使用比特以对文件中的信息进行编码。其它示例性特征包括元数据、可执行任务等。本文档来自技高网...

【技术保护点】
1.一种由包括一个或多个计算机的文件表征系统来对文件进行聚类的方法,其中,所述方法包括:/n由所述一个或多个计算机接收文件;/n由所述一个或多个计算机确定所述文件的格式;/n由所述一个或多个计算机并且基于所述文件的所述格式来选择与所述格式相关联的一个或多个文件特征的集合;/n由所述一个或多个计算机并且针对所述一个或多个文件特征的集合中的每个文件特征来从所述文件中提取所述文件特征的相应的特征值;以及/n由所述一个或多个计算机并且基于所述特征值来生成所述文件的哈希。/n

【技术特征摘要】
【国外来华专利技术】20170302 EP 17382109.11.一种由包括一个或多个计算机的文件表征系统来对文件进行聚类的方法,其中,所述方法包括:
由所述一个或多个计算机接收文件;
由所述一个或多个计算机确定所述文件的格式;
由所述一个或多个计算机并且基于所述文件的所述格式来选择与所述格式相关联的一个或多个文件特征的集合;
由所述一个或多个计算机并且针对所述一个或多个文件特征的集合中的每个文件特征来从所述文件中提取所述文件特征的相应的特征值;以及
由所述一个或多个计算机并且基于所述特征值来生成所述文件的哈希。


2.根据权利要求1所述的方法,其中,对于所述一个或多个文件特征的集合中的每个文件特征具有匹配特征值的文件具有相同的哈希。


3.根据权利要求2所述的方法,还包括:
提交所述文件的所生成的哈希作为要搜索索引的搜索查询,其中,所述索引通过相应的哈希列举多个文件;以及
响应于提交所述搜索查询,接收具有所生成的哈希的所有文件。


4.根据权利要求1至3中的任何一项所述的方法,其中,所述一个或多个文件特征的集合中的至少一个文件特征是:文件大小、文件类型或元数据值。


5.根据权利要求1至4中的任何一项所述的方法,还包括:
在通过多个文件的相应的哈希列举所述多个文件的索引中,使用所生成的哈希来对所述文件进行索引。


6.根据权利要求1至5中的任何一项所述的方法,其中,由所述一个或多个计算机并且基于所提取的数据的值来生成所述文件的哈希包括:
组合所述特征值以生成所述文件的特征的组合表示;以及
对所述组合表示应用哈希函数以生成所述文件的哈希。


7.根据权利要求1至6中的任何一项所述的方法,其中,由所述一个或多个计算机并且基于所述文件的所述格式来选择具有所述格式的文件的一个或多个文件特征的集合包括:
由所述一个或多个计算机并且基于所述文件的所述格式来识别一个或多个文件特征的预定集合,以及
响应于由所述一个或多个计算机提取所述相应的特征值并且基于所提取的相应的特征值的值来更新所述一个或多个文件特征的预定集合。


8.一种文件表征系统,所述文件表征系统包括:
一个或多个计算机;以及
存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机执行时使所述一个或多个计算机执行包括以下步骤的操作:
由所述一个或多个计算机接收文件;
由所述一个或多个计算机确定所述文件的格式;
由所述一个或多个计算机并且基于所述文件的所述格式来选择与所述格式相关联的一个或多个文件特征的集合;
由所述一个或多个计算机并且针对所述一个或多个文件特征的集合中的每个文件特征来从所述文件中提取用于所述文件特征的相应的特征值;以及
由所述一个或多个计算机并且基于所述特征值来生成所述文件的哈希。


9.根据权利要求8所述的系统,其中,对于所述一个或多个文件特征的集合中的每个文件特征具有匹配特征值的文件具有相同的哈希。


10.根据权利要求9所述的系统,所述操作还包括:
提交所述...

【专利技术属性】
技术研发人员:乔斯·贝尔纳多·金特罗·拉米雷斯埃米利安·马丁内斯·孔特雷拉斯
申请(专利权)人:维鲁斯托塔尔SLU公司
类型:发明
国别省市:西班牙;ES

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1