This application discloses a document clustering method, device, device and readable medium, which belongs to the field of computer data processing technology. The method includes: obtaining ki similar files of the first file from N files; defining the label that appears most frequently in ki similar files as a reference label; changing the current label of the first file to a reference label when the current label of the second file is different from the reference label; repeating the above steps until the current label and the reference label of each file are the same. Get the final label of each file; classify the files with the same final label into the same cluster. By changing the current label of each document with different current label and reference label, the application obtains the final label of each document after several iterations, and classifies the files with the same final label into the same category cluster, so as to classify the documents with lower surface correlation but essentially the same type into one category, thus improving the accuracy of document clustering.
【技术实现步骤摘要】
文件聚类方法、装置、设备及可读介质
本申请涉及计算机数据处理
,尤其涉及一种文件聚类方法、装置、设备及可读介质。
技术介绍
文件聚类是基于相似性算法,将多个文件分类至不同类簇的技术。比如,对于安卓(Android)操作系统的100个程序文件,通过文件聚类技术区分出正常文件和病毒文件。相关技术提供的一种文件聚类方法为:收集多个文件;获得多个文件的特征值;根据每个文件的特征值获得任意两个文件之间的关联程度;将关联程度高于阈值的文件归为同一类簇中。某些文件具有传播和演化的特性,比如病毒文件。因此一个初始病毒文件通过多次传播和演化后生成的后续病毒文件,其特征值和初始病毒文件差别较大,通过上述文件聚类方法,无法将表面上关联程度较低但实质上是同一类型的文件归为一类。
技术实现思路
本申请实施例提供了一种文件聚类方法、装置、设备及可读介质可以解决相关技术的问题。所述技术方案如下:一方面,提供了一种文件聚类方法,包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。另一方面,提供了一种病毒文件检测方法,所述方法包括:提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;接收用户通过所述病毒查杀控件触发的操作信号;根据所述操作信号获取至少一个文件的病毒查 ...
【技术保护点】
1.一种文件聚类方法,其特征在于,所述方法包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。
【技术特征摘要】
1.一种文件聚类方法,其特征在于,所述方法包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。2.根据权利要求1所述的方法,其特征在于,所述获取所述第i个文件的ki个相似文件,包括:获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。3.根据权利要求2所述的方法,其特征在于,所述获取所述N个文件中每个文件之间的关联程度,建立文件关联关系,包括:获取所述N个文件中每个文件的特征值;根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。4.根据权利要求1至3任一所述的方法,其特征在于,所述将所述ki个相似文件中出现次数最多的标签定义为参考标签,包括:若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。5.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:对于所述ki个相似文件中当前标签不是所述参考标签的文件,将所述文件的当前标签均改为所述参考标签。6.根据权利要求1至3任一所述的方法,其特征在于,所述N个文件中包含种子文件,所述种子文件是已知文件类别的文件;所述方法还包括:根据所述种子文件的文件类别,将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。7.根据权利要求1至3任一项所述的方法,其特征在于,所述从N个文件中获取第i个文件的ki个相似文件之前,还包括:获取所述N个文件,为所述N个文件赋予初始标签,其中,所述N个文件中任意两个文件之间的初始标签不相同。8.一种病毒文件检测方法,其特征在于,所述方法包括:提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;接收用户通过所述病毒查杀控件触发的操作信号;根据所述操作信号获取至少一个文件的病毒查杀结果,所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后,根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的;显示所述至少一个文件的病毒查杀结果。9.根据权利要求8所述的方法,其特征在于,所述根据所述操作信号获取至少一个文件的病毒查杀结果,包括:向服务器发送所述至少一个文件的标识信...
【专利技术属性】
技术研发人员:雷经纬,罗元海,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。