【技术实现步骤摘要】
数据对象的处理方法、处理装置及处理系统
本公开涉及互联网
,更具体地,涉及一种数据对象的处理方法、处理装置及处理系统。
技术介绍
随着互联网技术和数据存储技术的快速发展,各个机构组织积累了大量的数据。从海量的数据中提取潜在的、有价值的数据信息成为一项巨大的挑战。聚类分析是数据挖掘中的一种重要的方法。聚类分析能够将海量的杂乱无章的数据根据相似性归类至不同的簇。在实现本专利技术构思的过程中,专利技术人发现现有技术中至少存在如下问题:当需要进行聚类分析的数据规模增大时,通过聚类获得的簇的总个数很可能会很大,导致平均每个簇内的数据量逐渐减少,使得聚类纯度不够高。换言之,现有技术中通过聚类得到的多个簇中可能存在可以进一步合并的簇。对于这些簇如果不进一步合并,就会使得聚类过程中数据的相似性提取不够完整,从而影响后续的数据分析的简洁性和准确性。
技术实现思路
有鉴于此,本公开提供了一种能够提高聚类纯度、以及能够更完整地提取相似特征的数据对象的处理方法、处理装置、处理系统及介质。本公开的一个方面提供了一种数据对象的处理方法。所述方法包括:从多个第一簇的每个第一簇中抽取至少一个特 ...
【技术保护点】
1.一种数据对象的处理方法,包括:从多个第一簇的每个第一簇中抽取至少一个特征数据,得到再分析数据,其中,每一个特征数据对应于一个数据对象,所述多个第一簇为将所有待聚类的数据对象的特征数据通过聚类而获得的;通过聚类将所述再分析数据重新归类为多个第二簇;根据所述多个第二簇的每个第二簇中的特征数据在所述多个第一簇中的归类,将所述多个第一簇的每个第一簇的特征数据重新分配至对应的第二簇中;以及当所述重新分配后的所述多个第二簇对应的聚类纯度与所述多个第一簇对应的聚类纯度的纯度差值大于预设的偏差阈值时,以所述重新分配后的所述多个第二簇为所述多个第一簇,重复执行所述抽取、重新归类、以及重新 ...
【技术特征摘要】
1.一种数据对象的处理方法,包括:从多个第一簇的每个第一簇中抽取至少一个特征数据,得到再分析数据,其中,每一个特征数据对应于一个数据对象,所述多个第一簇为将所有待聚类的数据对象的特征数据通过聚类而获得的;通过聚类将所述再分析数据重新归类为多个第二簇;根据所述多个第二簇的每个第二簇中的特征数据在所述多个第一簇中的归类,将所述多个第一簇的每个第一簇的特征数据重新分配至对应的第二簇中;以及当所述重新分配后的所述多个第二簇对应的聚类纯度与所述多个第一簇对应的聚类纯度的纯度差值大于预设的偏差阈值时,以所述重新分配后的所述多个第二簇为所述多个第一簇,重复执行所述抽取、重新归类、以及重新分配操作,直到所述纯度差值小于或等于所述偏差阈值时,输出所述重新分配后的所述多个第二簇。2.根据权利要求1所述的处理方法,其中,所述数据对象包括以下中任意一项:数据文件、文档、图像、音频、或视频。3.根据权利要求1所述的处理方法,其中,所述聚类纯度通过所述所有待聚类的数据对象的总个数与簇的总个数确定。4.根据权利要求1所述的处理方法,其中,所述从多个第一簇的每个第一簇中抽取至少一个特征数据,包括:从所述多个第一簇的每个第一簇中随机抽取一个特征数据。5.根据权利要求1所述的处理方法,还包括:通过聚类将所述所有待聚类的数据对象的特征数据归类为多个第一簇。6.根据权利要求5所述的处理方法,还包括:获取所述所有待聚类的数据对象中每一个数据对象对应的特征数据。7.一种数据对象的处理装置,包括:抽取模块,用于从多个第一簇的每个第一簇中抽取至少一个特征数据,得到再分析数据,其中,每一个特征数据对应于一个数据对象,所述多个第一簇为将所有待聚类的数据对象的特征数据通过聚类而获得的;重新...
【专利技术属性】
技术研发人员:汪振华,安山,麻晓珍,陈宇,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。