一种数据聚类方法及装置制造方法及图纸

技术编号:19778474 阅读:45 留言:0更新日期:2018-12-15 11:22
本发明专利技术提供一种数据聚类方法及装置,在获取待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,计算出对不确定性数据进行聚类所需信息,如基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心、视为不确定数据相对于该数据集的期望平方误差总和的不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,进而将期望平方误差总和取值最小的数据集确定为目标数据集,将不确定性数据划分至所述目标数据集中,实现基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,提高不确定性数据聚类的准确度。

【技术实现步骤摘要】
一种数据聚类方法及装置
本专利技术属于数据处理
,尤其涉及一种数据聚类方法及装置。
技术介绍
由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往具有不确定性(简称不确定性数据)的性质,特别在需要与真实环境交互的应用中,如移动定位服务和传感器监测等应用中,以移动定位服务中追踪移动目标(如车辆或人)为例,在移动定位服务中不可能完全追踪到所有移动目标的准确的瞬间位置,因此每个移动目标的位置变化过程伴有不确定性,这个不确定性会对数据的管理,如数据查询和数据聚类产生影响。目前数据的不确定性包括两种类型:已存在的不确定性和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身已经存在不确定性。例如关系数据库中的数据元组可能与能表现其存在信任度的一个概率值相关联。在第二种类型中,一条数据作为一个封闭区域,该数据的概率密度函数(PDF)限定该条数据的取值。对于这两种类型来说,可用的数据聚类有以下两种:通过运用EM(ExpectationMaximization,最大期望)算法解决使混合密度适合不确定性数据聚类的问题和模糊C均值聚类算法,但是这两种数据聚类方法均没有考虑不确本文档来自技高网...

【技术保护点】
1.一种数据聚类方法,其特征在于,所述方法包括:在获取到待聚类的不确定性数据的情况下,对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心;对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将所述期望平方误差之和确定为所述不确定性数据相对于该数据集的期望平方误差总和;将期望平方误差总和取值最小的数据集确定为目标数据集;将所述不确定性数据划分至所述目标数据集中。

【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:在获取到待聚类的不确定性数据的情况下,对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心;对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将所述期望平方误差之和确定为所述不确定性数据相对于该数据集的期望平方误差总和;将期望平方误差总和取值最小的数据集确定为目标数据集;将所述不确定性数据划分至所述目标数据集中。2.根据权利要求1所述的方法,其特征在于,所述对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心包括:基于公式:得到第j个数据集Cj的预设初始质心cj,其中xi为所述不确定性数据,f(xi)为不确定性概率密度函数。3.根据权利要求1所述的方法,其特征在于,所述对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和包括:基于公式:得到不确定性数据xi到第j个数据集Cj重新计算出的预设初始质心cj的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,f(xi)为不确定性概率密度函数,K为数据集总数。4.一种数据聚类方法,其特征在于,所述方法包括:在获取到待聚类的不确定性数据的情况下,基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离;将期望距离最小的数据集确定为所述不确定性数据的目标数据集,并将所述不确定性数据划分至所述目标数据集中;基于所述不确定性数据的不确定性概率密度函数,重新计算所述目标数据集的预设初始质心,并迭代执行基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离和将期望距离最小的数据集确定为所述不确定性数据的目标数据集的步骤,直至满足预设条件。5.根据权利要求4所述的方法,其特征在于,所述基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离包括:基于公式:得到不确定性数据xi到第j个数据集Cj的预设初始质心cj的期望距离,f(xi)为不确定性概率密度函数。6.根据权利要求4所述的方法,其特征在于,所述基于所述不确定性数据的...

【专利技术属性】
技术研发人员:陈力铭叶朱荪张峰马新杰
申请(专利权)人:深圳软通动力科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1