病毒文件聚类方法、装置及可读介质制造方法及图纸

技术编号:20682007 阅读:33 留言:0更新日期:2019-03-27 19:14
本发明专利技术公开了一种病毒文件聚类方法及装置,属于计算机数据处理技术领域。所述方法包括:获取病毒文件在至少一个传播途径上的特征,得到病毒文件的特征值;根据病毒文件的特征值获取病毒文件的特征比特图;根据多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度,对待聚类的多个病毒文件进行聚类。本发明专利技术通过根据病毒文件在传播途径上的特征值获取病毒文件的特征比特图,根据任意两个病毒文件的特征比特图之间的匹配程度,对待聚类的所有病毒文件进行并行聚类,解决了相关技术中根据病毒文件的特征逐一串行匹配聚类所导致的效率低下问题,提高了病毒文件聚类的效率,在面对大量病毒文件数据时,节省了处理时间。

【技术实现步骤摘要】
病毒文件聚类方法、装置及可读介质
本专利技术涉及计算机数据处理
,尤其涉及一种病毒文件聚类方法、装置及可读介质。
技术介绍
近年来,制作病毒文件的作案人员呈现团伙化趋势,由于病毒文件的数量庞大,将大量的病毒文件进行准确的聚类,可以大幅提高执法人员对病毒作案团伙的违法犯罪行为的掌控。其中,病毒文件聚类就是将具有相同或相似特征的病毒文件归为同一类簇。比如,将同一犯罪团伙制作的同一类病毒文件进行聚类。病毒文件的传播特征是病毒文件在传播途径上具有特征值,例如网页链接,电话号码之类的字符串。相关技术中,一种病毒文件的聚类方法包括:将待聚类的多个病毒文件中的任一病毒文件的传播特征与已有类簇的传播特征进行逐一串行匹配聚类,若该病毒文件的传播特征与某一类簇的传播特征相同,则将该病毒文件归入到该类簇中,若该病毒文件可归入到多个类簇,则将该多个类簇合并为新的类簇;若一个病毒文件的传播特征与已有的任一类簇都不相同,则将该病毒文件作为新的类簇。相关技术中对病毒文件的聚类方法是串行逐个进行的,效率低下,当待聚类的病毒文件的数量较多时,相关技术对病毒文件的聚类方法处理速度很慢。专利技术内容本申请实施例提供本文档来自技高网...

【技术保护点】
1.一种病毒文件聚类方法,其特征在于,所述方法包括:获取病毒文件在至少一个传播途径上的特征,得到所述病毒文件的特征值;根据所述病毒文件的特征值获取所述病毒文件的特征比特图,其中,所述病毒文件的特征比特图的比特位数量与待聚类的多个病毒文件在所述传播途径上的特征值的总数量相同,且所述特征比特图中的每个比特位与一个传播途径上的一个特征值相对应,所述比特位的取值与所述病毒文件是否具有对应的特征值相关;根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度,对所述待聚类的多个病毒文件进行聚类。

【技术特征摘要】
1.一种病毒文件聚类方法,其特征在于,所述方法包括:获取病毒文件在至少一个传播途径上的特征,得到所述病毒文件的特征值;根据所述病毒文件的特征值获取所述病毒文件的特征比特图,其中,所述病毒文件的特征比特图的比特位数量与待聚类的多个病毒文件在所述传播途径上的特征值的总数量相同,且所述特征比特图中的每个比特位与一个传播途径上的一个特征值相对应,所述比特位的取值与所述病毒文件是否具有对应的特征值相关;根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度,对所述待聚类的多个病毒文件进行聚类。2.根据权利要求1所述的方法,其特征在于,所述根据所述病毒文件的特征值获取所述病毒文件的特征比特图,包括:确定所述待聚类的多个病毒文件在所述传播途径上的特征值的总数量,根据所述总数量确定所述病毒文件的特征比特图的比特位数量;当所述病毒文件具有目标特征值时,将所述病毒文件的特征比特图中与所述目标特征值对应的比特位的值设置为第一比特值;当所述病毒文件未具有所述目标特征值时,将所述病毒文件的特征比特图中与所述目标特征值对应的比特位的值设置为第二比特值;根据各个所述比特位的值,得到所述每个病毒文件的特征比特图。3.根据权利要求2所述的方法,其特征在于,所述根据所述多个病毒文件中的任意两个病毒文件的特征比特图之间的匹配程度,对所述待聚类的多个病毒文件进行聚类,包括:根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述两个病毒文件具有的相同特征值的数量;当所述相同特征值的数量不小于所述第一阈值时,则确定所述两个病毒文件具有关联关系;将所述多个病毒文件中具有关联关系的病毒文件聚类为一个第一级非孤立类簇。4.根据权利要求3所述的方法,其特征在于,所述根据所述多个病毒文件中的任意两个病毒文件的特征比特图确定所述两个病毒文件具有的相同特征值的数量,包括:将所述多个病毒文件中任意两个病毒文件的特征比特图进行与运算,得到与运算结果;确定所述与运算结果中包括的第一比特值的数量,将所述与运算结果中包括的所述第一比特值的数量作为所述任意两个病毒文件具有的相同特征的数量。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述第i级非孤立类簇的特征比特图;根据任意两个所述第i级非孤立类簇的特征比特图确定所述两个第i级非孤立类簇具有的相同特征值的数量;当所述相同特征值的数量不小于第二阈值时,则确定所述两个第i级非孤立类簇具有关联关系,将所述两个第i级非孤立类簇聚类为第i+1级非孤立类簇;当所述相同特征值的数量小于第二阈值时,则确定所述两个第i级非孤立类簇不具有关联关系;并将与其他每个第i级非孤立类簇均不具有关联关系的第i级非孤立类簇作为一个孤立类簇。6.根据权利要求5所述的方法,其特征在于,所述获取所述第i级非孤立类簇的特征比特图,包括:当i=1时,将所述第i级非孤立类簇内的至少两个病毒文件的特征比特图进行或运算,得到第一或运算结果,将得到的所述第一或运算结果作为所述第i级非孤立类簇的特征比特图;当i>1时,将所述第i级非孤立类簇内的至少两个第i-1级非孤立类簇的特征比特图进行或运算,得到第二或运算结果,将得到的所述第二或运算结果作为所述第i级非孤立类簇的特征比特图。7.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:万文强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1