文件聚类方法、装置、设备及可读介质制造方法及图纸

技术编号:21200930 阅读:18 留言:0更新日期:2019-05-25 01:33
本申请公开了一种文件聚类方法、装置、设备及可读介质,属于计算机数据处理技术领域。所述方法包括:从N个文件中获取第i个文件的ki个相似文件;将ki个相似文件中出现次数最多的标签定义为参考标签;当第i个文件的当前标签与参考标签不同时,将第i个文件的当前标签改为参考标签;重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,得到每个文件的最终标签;将具有相同最终标签的文件归为同一类簇。本申请通过改变每个当前标签和参考标签不相同的文件的当前标签,多次迭代后获得每个文件的最终标签,将具有相同最终标签的文件归为同一类簇,从而能够将表面上关联程度较低但实质上是同一类型的文件归为一类,提高了文件聚类的准确性。

File Clustering Method, Device, Equipment and Readable Media

This application discloses a document clustering method, device, device and readable medium, which belongs to the field of computer data processing technology. The method includes: obtaining ki similar files of the first file from N files; defining the label that appears most frequently in ki similar files as a reference label; changing the current label of the first file to a reference label when the current label of the second file is different from the reference label; repeating the above steps until the current label and the reference label of each file are the same. Get the final label of each file; classify the files with the same final label into the same cluster. By changing the current label of each document with different current label and reference label, the application obtains the final label of each document after several iterations, and classifies the files with the same final label into the same category cluster, so as to classify the documents with lower surface correlation but essentially the same type into one category, thus improving the accuracy of document clustering.

【技术实现步骤摘要】
文件聚类方法、装置、设备及可读介质
本申请涉及计算机数据处理
,尤其涉及一种文件聚类方法、装置、设备及可读介质。
技术介绍
文件聚类是基于相似性算法,将多个文件分类至不同类簇的技术。比如,对于安卓(Android)操作系统的100个程序文件,通过文件聚类技术区分出正常文件和病毒文件。相关技术提供的一种文件聚类方法为:收集多个文件;获得多个文件的特征值;根据每个文件的特征值获得任意两个文件之间的关联程度;将关联程度高于阈值的文件归为同一类簇中。某些文件具有传播和演化的特性,比如病毒文件。因此一个初始病毒文件通过多次传播和演化后生成的后续病毒文件,其特征值和初始病毒文件差别较大,通过上述文件聚类方法,无法将表面上关联程度较低但实质上是同一类型的文件归为一类。
技术实现思路
本申请实施例提供了一种文件聚类方法、装置、设备及可读介质可以解决相关技术的问题。所述技术方案如下:一方面,提供了一种文件聚类方法,包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。另一方面,提供了一种病毒文件检测方法,所述方法包括:提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;接收用户通过所述病毒查杀控件触发的操作信号;根据所述操作信号获取至少一个文件的病毒查杀结果,所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后,根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的;显示所述至少一个文件的病毒查杀结果。另一方面,提供了一种文件聚类装置,所述装置包括:第一获取单元,用于从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;定义单元,用于将所述ki个相似文件中出现次数最多的标签定义为参考标签;标签修改单元,当所述第i个文件的当前标签与所述参考标签不同时,用于将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;聚类单元,用于将所述N个文件中具有相同最终标签的文件归为同一类簇。在一种可能的实施方式中,所述装置还包括第二获取单元和确定单元:所述第二获取单元,用于获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;所述第一获取单元,还用于从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;所述确定单元,用于将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。在一种可能的实施方式中,所述第二获取单元,还用于获取所述N个文件中每个文件的特征值;所述装置还包括计算单元;所述计算单元,用于根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。在一种可能的实施方式中,所述装置还包括选择单元:所述选择单元,用于若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。在一种可能的实施方式中,所述标签修改单元,还用于对于所述ki个相似文件中当前标签不是所述参考标签的文件,将所述文件的当前标签均改为所述参考标签。在一种可能的实施方式中,所述N个文件中包含种子文件,所述种子文件是已知文件类别的文件;所述聚类单元,还用于根据所述种子文件的文件类别,将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。在一种可能的实施方式中,所述装置还包括标签赋予单元;所述第二获取单元,还用于获取所述N个文件;所述标签赋予单元,用于为所述N个文件赋予初始标签,其中,所述N个文件中任意两个文件之间的初始标签不相同。另一方面,提供了一种文件聚类设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。本申请通过将第i个文件的ki个相似文件中出现次数最多的标签定义为参考标签,若第i个文件的当前标签不是参考标签,则将第i个文件的当前标签改为参考标签,多次迭代后,获得N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇,解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题,通过多次迭代获得最终标签,从而获得了实质上是同一类型的文件具有的相同的最终标签,从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇,提高了文件聚类的准确性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图;图2是本申请一个示例性实施例提供的文件聚类方法的方法流程图;图3是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;图4是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;图5是本申请一个示例性实施例提供的第一数据库和第二数据库的框图;图6是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;图7是本申请一个示例性实施例提供的输出文件类别的文件聚类方法的流程图;图8是本申请一个示例性实施例提供的病毒检测方法的方法流程图;图9是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图;图10是本申请一个示例性实施例提供的病毒库构建方法的方法流程图;图11是本申请另一个示例性实施例提供的病毒检测方法的方法流程图;图12是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图;图13是本申请一个示例性实施例提供的文件聚类装置的装置框图;图14是本申请一个示例性实施例提供的文件聚类设备的各个模块的结构框图;图15是本申请一个示例性实施例提供的文件聚类设备的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。请参考图1,其示出了本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图,如图1所示,该实施环境可以包括:数据源110、分布式处理系统120以及数据消费设备130。数据源110,用于产生和存储流式数据或静态数据本文档来自技高网...

【技术保护点】
1.一种文件聚类方法,其特征在于,所述方法包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。

【技术特征摘要】
1.一种文件聚类方法,其特征在于,所述方法包括:从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;将所述ki个相似文件中出现次数最多的标签定义为参考标签;当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;将所述N个文件中具有相同最终标签的文件归为同一类簇。2.根据权利要求1所述的方法,其特征在于,所述获取所述第i个文件的ki个相似文件,包括:获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。3.根据权利要求2所述的方法,其特征在于,所述获取所述N个文件中每个文件之间的关联程度,建立文件关联关系,包括:获取所述N个文件中每个文件的特征值;根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。4.根据权利要求1至3任一所述的方法,其特征在于,所述将所述ki个相似文件中出现次数最多的标签定义为参考标签,包括:若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。5.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:对于所述ki个相似文件中当前标签不是所述参考标签的文件,将所述文件的当前标签均改为所述参考标签。6.根据权利要求1至3任一所述的方法,其特征在于,所述N个文件中包含种子文件,所述种子文件是已知文件类别的文件;所述方法还包括:根据所述种子文件的文件类别,将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。7.根据权利要求1至3任一项所述的方法,其特征在于,所述从N个文件中获取第i个文件的ki个相似文件之前,还包括:获取所述N个文件,为所述N个文件赋予初始标签,其中,所述N个文件中任意两个文件之间的初始标签不相同。8.一种病毒文件检测方法,其特征在于,所述方法包括:提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;接收用户通过所述病毒查杀控件触发的操作信号;根据所述操作信号获取至少一个文件的病毒查杀结果,所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后,根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的;显示所述至少一个文件的病毒查杀结果。9.根据权利要求8所述的方法,其特征在于,所述根据所述操作信号获取至少一个文件的病毒查杀结果,包括:向服务器发送所述至少一个文件的标识信...

【专利技术属性】
技术研发人员:雷经纬罗元海
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1