一种样本相似度的检测方法及装置制造方法及图纸

技术编号：12652034 阅读：233 留言：0更新日期：2016-01-06 09:37

本发明专利技术提供一种样本相似度的检测方法及装置，该检测方法包括：提取样本中的字符串集合；将字符串集合输入至布隆过滤器中，生成字符串集合的二进制位串，作为样本的样本特征；计算样本特征与基准样本特征之间的相似度；根据相似度对样本进行分类。通过本发明专利技术，利用布隆过滤器的优异的空间效率，将通过布隆过滤器生成的二进制位串作为样本的样本特征，并根据该样本特征来计算样本的相似度，能够节省样本特征的存储空间，并可提高样本的特征计算和相似度计算过程中的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是关于计算机安全领域，具体地，是关于一种样本相似度检测方法及装置。
技术介绍
在样本分析过程中，需要计算不同样本之间的相似度，以便用于样本的家族分类，减少重复分析的工作量。现有的相似度计算方法是使用模糊哈希算法CTPH，然后计算不同哈希之间的加权编辑距离。然而，这种算法对信息的压缩程度较大，因而对于文件差异的敏感程度较低，计算的复杂度也较高。
技术实现思路
本专利技术实施例的主要目的在于提供一种样本相似度的检测方法及装置，以克服现有技术的上述缺点，利用布隆过滤器的优异的空间效率，提高针对样本的特征计算和相似度计算过程中的效率。为了实现上述目的，本专利技术实施例提供一种样本相似度的检测方法，该检测方法包括：获取一待检测的样本，并根据样本构建布隆过滤器；提取样本中的字符串集合；将字符串集合输入至布隆过滤器中，生成字符串集合的二进制位串，作为样本的样本特征；计算样本特征与基准样本特征之间的相似度。在一实施例中，上述的检测方法还包括：根据相似度对样本进行分类。进一步地，根据相似度对样本进行分类，包括：判断相似度与一预设阈值距离的大小关系；当相似度小于预设阈值距离时，将样本与相似度对应的基准样本划分为一类。在一实施例中，提取样本中的字符串集合，进一步包括：提取样本中的常量信息，并根据常量信息生成字符串集合。在一实施例中，上述的常量信息至少包括：调用函数名称、字符串信息、数值常量。在一实施例中，上述的样本包括：计算机病毒文件、计算机木马文件、计算机恶意软件。在一实施例中，计算样本特征与基准样本特征之间的相似...

【技术保护点】
一种样本相似度的检测方法，其特征在于，所述的检测方法包括：获取一待检测的样本，并根据所述样本构建布隆过滤器；提取所述样本中的字符串集合；将所述字符串集合输入至所述布隆过滤器中，生成所述字符串集合的二进制位串，作为所述样本的样本特征；计算所述样本特征与基准样本特征之间的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈卓，杨康，李亚东，胡剑飞，唐海，邢超，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人