使用上下文触发分段哈希的计算机安全制造技术

技术编号:34505078 阅读:13 留言:0更新日期:2022-08-13 20:46
本文总体讨论的是用于基于上下文触发分段哈希(CTPH)进行聚类的设备、系统和方法。一种方法可以包括确定文件的第一CTPH字符串的第一索引。第一索引可以包括CTPH字符串的连续位。第一索引可以小于CTPH字符串,诸如是CTPH字符串的真子集。方法可以包括确定第一索引与文件集群的第二索引相匹配,并且响应于确定第一索引与集群的第二索引相匹配,将文件与集群相关联。方法可以包括基于集群,确定文件包括恶意软件。恶意软件。恶意软件。

【技术实现步骤摘要】
【国外来华专利技术】使用上下文触发分段哈希的计算机安全

技术介绍

[0001]计算机安全中的相似性分析已经使用了很多年。上下文触发分段哈希(CTPH)是相似性分析技术的一个示例。其他技术使用基于数据的CTPH哈希的莱文斯坦(Levenshtein)距离来确定数据是否相似。然而,这种分析在计算资源和计算时间方面过于昂贵。此外,聚类百分比(确定是否对CTPH字符串进行聚类的阈值距离)的确定是任意的,并且提供不可预测的结果。期望更有效的相似性分析技术和更确定性的技术。

技术实现思路

[0002]该
技术实现思路
章节被提供来以简化形式引入实施例的各个方面,并且在详细描述中进一步解释以下实施例。该
技术实现思路
章节不旨在标识所要求保护的主题的必要或所需特征,并且在该
技术实现思路
章节中列出的元件的组合和顺序不旨在向所要求保护的主题的元件提供限制。
[0003]系统、方法、设备和计算机或其他机器可读介质可以提供对现有CTPH字符串比较技术或恶意软件检测技术的改进。改进可以包括更快的处理时间和减少的存储器开销,来决定CTPH字符串与另一个CTPH字符串是否匹配。改进可以至少部分来自于从CTPH字符串比较去除莱文斯坦距离计算。代替确定CTPH字符串之间的距离,实施例可以比较CTPH字符串的索引,并且如果索引匹配,则将CTPH字符串相关联。实施例的另一个优点可以包括确定性。先前的距离计算需要用户定义一个距离,低于该距离会将CTPH字符串相关联。这个要求使得距离计算依赖于定义的距离并且是不确定的。更多优点和关于这些优点的另外细节在本文别处讨论。
[0004]一种系统可以包括处理电路装置和存储器。存储器可以包括指令,指令在由处理电路装置执行时,使处理电路装置执行用于确定文件包括恶意软件的操作。操作可以包括确定文件的第一上下文触发分段哈希(CTPH)字符串的第一索引,第一索引包括CTPH字符串的连续位。第一索引可以是CTPH字符串的真子集。CTPH字符串和真子集不能包含空集。操作可以包括确定第一索引与文件的集群的第二索引相匹配。操作可以包括:响应于确定第一索引与集群的第二索引相匹配,将文件与集群相关联。操作可以包括基于集群,确定文件包括恶意软件。操作可以包括将文件标记为可能的恶意软件,防止用户打开文件、删除文件,向处理恶意软件的人员等提供指示文件、相关联的集群等的报告。
[0005]确定第一CTPH字符串的第一索引可以包括将第一CTPH字符串拆分为连续、非重叠位的不相交的多个部分。第一索引可以被确定为第一CTPH字符串的多个部分中的部分的第一数目的连续(例如,非重叠)位。集群可以包括文件的相应多个集群中的一个集群。
[0006]第一索引可以包括CTPH字符串的最高有效字节。操作还可以包括:确定CTPH字符串的对应于CTPH字符串的最低有效字节的第三索引与第二索引相匹配。操作还可以包括:响应于确定CTPH字符串的第三索引与第二索引相匹配,将文件与多个集群中的集群相关联。
[0007]第三索引可以(仅)响应于第一索引不匹配相应的第二索引中的任何一个第二索
引而被确定。
[0008]操作还可以包括:针对部分中的每个部分,确定包括该部分的第二最高有效字节的第四索引;针对部分中的每个部分,确定包括该部分的第三最高有效字节的第五索引。操作还可以包括:响应于确定多个部分中的部分的第一索引、第四索引和第五索引中的一个与第二索引相匹配,将文件与集群相关联。
[0009]第三索引包括该部分的最低有效字节,并且针对该部分中的每个部分而被确定。操作还可以包括:针对部分中的每个部分,确定包括该部分的第二最低有效字节的第六索引。操作还可以包括:响应于确定第三索引或第六索引中的一个与第二索引相匹配,将文件与集群相关联。
[0010]一种方法可以包括执行系统的操作。机器可读介质可以包括指令,该指令在由机器执行时,使机器执行系统的操作。
附图说明
[0011]图1以示例方式图示了用于CTPH聚类和基于集群的索引检测恶意软件的方法的实施例的流程图。
[0012]图2以示例方式图示了基于计算机文件生成CTPH字符串的实施例的流程图。
[0013]图3以示例方式图示了将CTPH字符串拆分为L个部分并且确定L个部分中的部分的索引的实施例的流程图。
[0014]图4以示例方式图示了CTPH聚类方法的聚类操作的实施例的图。
[0015]图5以示例方式图示了256位安全哈希算法(SHA256)的集群计数与集群大小的图。
[0016]图6以示例方式图示了实施例的CTPH聚类方法的集群计数与集群大小的图。
[0017]图7以示例方式图示了恶意软件检测设备的实施例的图。
[0018]图8以示例方式图示了用于使用CTPH字符串进行恶意软件检测的方法的实施例的图。
[0019]图9以示例方式图示了用于实现一个或多个实施例的机器(例如,计算机系统)的实施例的框图。
具体实施方式
[0020]在以下描述中,参考形成本专利技术的一部分并且以图示的方式示出可以被实践的特定实施例的附图。这些实施例用足够的细节被描述,以使本领域的技术人员能够实践实施例。应当理解,其他实施例可以被使用,并且在不脱离实施例的范围的情况下,结构、逻辑和/或电气改变可以被进行。因此,实施例的以下描述不是限制意义的,并且实施例的范围由所附权利要求限定。
[0021]在一些实施例中,本文描述的操作、功能或技术可以在软件中被实现。软件可以包括存储在计算机或者其他机器可读介质或存储设备(诸如一个或多个非暂态存储器(例如非暂态机器可读介质)或其他类型的基于硬件的存储设备(本地的或联网的))上的计算机可执行指令。此外,这种功能可以对应于子系统,该子系统可以是软件、硬件、固件或其组合。多个功能可以在一个或多个子系统中根据需要被执行,并且所描述的实施例仅是示例。软件可以在数字信号处理器、专用集成电路装置(ASIC)、微处理器、中央处理单元(CPU)、图
形处理单元(GPU)、现场可编程门阵列(FPGA)或者其他类型的处理器上被执行,该其他类型的处理器在计算机系统(诸如个人计算机、服务器或其他计算机系统)上操作、将这种计算机系统转变为专门编程的机器。功能或算法可以使用处理电路装置系统来实现,诸如可以包括电气和/或电子组件(例如一个或多个晶体管、电阻器、电容器、电感器、放大器、调制器、解调器、天线、无线电、调节器、二极管、振荡器、复用器、逻辑门、缓冲器、缓存、存储器、GPU、CPU、FPGA、ASIC等)。
[0022]上下文触发分段哈希(CTPH)以被用于信息安全行业中的相似性分析超过10年,并且已成为最流行和最标准的模糊哈希算法之一。CTPH已被用于样本聚类分析和恶意软件分类。然而,使用当前的CTPH聚类技术,找到具有一定相似性的样本组过于昂贵。为了在减少的时间内找到相似样本,实施例提供了一种简化的CTPH相似性分析解决方案,以帮助降低成本并且仍然保持聚类准确性。
[0023]模糊哈希允许调查人员专注于使用其他哈希方法未出现的潜在犯罪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:处理电路装置;存储器,包括存储在其上的指令,所述指令在由所述处理电路装置执行时,使所述处理电路装置执行用于确定文件包括恶意软件的操作,所述操作包括:确定所述文件的第一上下文触发分段哈希(CTPH)字符串的第一索引,所述第一索引是所述CTPH字符串的真子集;确定所述第一索引与文件的集群的第二索引相匹配;响应于确定所述第一索引与所述集群的所述第二索引相匹配,将所述文件与所述集群相关联;以及基于所述集群,确定所述文件包括恶意软件。2.根据权利要求1所述的系统,其中确定所述第一CTPH字符串的所述第一索引包括:将所述第一CTPH字符串拆分为连续位的不相交的多个部分。3.根据权利要求2所述的系统,其中所述第一索引被确定为所述第一CTPH字符串的所述多个部分中的部分的第一数目的连续位。4.根据权利要求3所述的系统,其中所述集群是文件的相应多个集群中的一个集群。5.根据权利要求4所述的系统,其中所述第一索引包括所述CTPH字符串的最高有效字节,并且所述操作还包括:确定所述CTPH字符串的对应于所述CTPH字符串的最低有效字节的第三索引与所述第二索引相匹配;以及响应于确定所述CTPH字符串的所述第三索引与所述第二索引相匹配,将所述文件与所述多个集群中的所述集群相关联。6.根据权利要求5所述的系统,其中所述第三索引响应于所述第一索引与所述第二索引不匹配而被确定。7.根据权利要求4所述的系统,还包括:针对所述多个部分中的每个部分,确定包括所述部分的第二最高有效字节的第四索引;以及响应于确定所述第四索引与所述第二索引相匹配,将所述文件与所述集群相关联。8.根据权利要求6所述的系统,其中所述操作还包括:针对所述多个部...

【专利技术属性】
技术研发人员:周钢
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1