当前位置: 首页 > 专利查询>深圳大学专利>正文

基于动态网格哈希索引的密度聚类方法及装置制造方法及图纸

技术编号:25481093 阅读:71 留言:0更新日期:2020-09-01 23:02
本申请提供了一种基于动态网格哈希索引的密度聚类方法及装置,通过获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;依据所述获取增量预设信息,通过所述密度聚类方法,生成在所述原数据集基础上进行增量聚类后的数据集;循环结束后得到完成增量聚类的数据集。通过引入针对不确定数据进行相应改造的新索引结构并,使算法的时间复杂度由O(n2)降为O(n),空间复杂度由O(n2)降为O(1);使算法适用于动态数据集,增量聚类比全量聚类更高效;在新提出的GH‑PDBSCAN算法的基础上结合DGridHash索引结构再提出Incremental GH‑PDBSCAN算法,使其适用于动态的不确定性数据集合的聚类。

【技术实现步骤摘要】
基于动态网格哈希索引的密度聚类方法及装置
本申请涉及数据处理领域,特别是基于动态网格哈希索引的密度聚类方法及装置。
技术介绍
在计算机科学中,不确定的数据是指包含噪声的数据,这些噪声使得原始数据偏离正确的值,当数据库中存在这样的数据,就需要引入概率计算。目前,PDBSCAN是属性不确定性数据的聚类算法。PDBSCAN算法思想来源于DBSCAN算法,但是DBSCAN算法只适用于确定性数据,而PDBSCAN算法则引入了概率代替之前确定的数值,使其适用于不确定性数据类型。PDBSCAN算法的算法步骤如下:算法1:PDBSCAN输入:D:不确定性数据集;Eps:搜索半径;Minpts:是否为核心点的判定阈值;F_value:直接密度可达的概率阈值;输出:数据集及相应的类标签;算法过程:算法1描述了PDBSCAN算法,算法2是其扩展聚类的具体细节。clu_num=k意味着当前的聚类类别是k,k是正整数。class(i)=0.-1或者1……k分别意味着数据对象oi尚未分类,已经确定属于噪音或者1……k中的某个类。type(i)=0.-1或者1分别意味着数据对象oi是边界点,噪音点还是核心点。visited(i)=1或者0分别意味着数据对象oi已经被处理或者没有被处理。算法1中,初始化完毕之后(1-2行),PDBSCAN算法开始访问数据点op并计算PNeighborhood(op)及PNEps(op)(3-5行),如果PNEps(op)等于1,则意味着该点Eps近邻里只有一个点,故判定它为噪音(6-7行)。PNEps(op)在1到Minpts之间,则尚不足直接判定该数据对象的类型,当PNEps(op)大于等于Minpts时,意味着该点为核心点,PDBSCAN算法将其直接密度可达的概率值大于阈值f_value的数据归为同一个类(8-16),并且调用Expand_cluster函数对现有的聚类进行扩展。当扩展的步骤完成之后,则对类标签为0的数据点再次处理,并把它们归于噪音点。以下是PDBSCAN算法中涉及到的函数Expand_cluster的算法步骤。算法2:Expand_cluster(PNeighborhood(op).′clu_num,f_value,Minpts)用n表示属性不确定性数据集大小,m表示属性不确定性数据对象的维度,S表示引入的不同的概率分布函数的数目。在预处理过程中,计算的时间复杂度为O(n2mS2),在主循环过程中,最坏的情况下需要n遍扫描,所以PDBSCAN算法的时间复杂度为O(n2mS2)。算法计算过程需维持任意两点之间距离小于指定半径的概率矩阵,故PDBSCAN算法的空间复杂度为O(n2)。通过以上介绍,可发现PDBSCAN的缺点如下:1、PDBSCAN算法时间复杂度太高,为O(n2)级别;2、PDBSCAN算法空间复杂度太高,为O(n2)级别;3、未提出与PDBSCAN算法相应的基于动态不确定数据的增量聚类算法。
技术实现思路
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的基于动态网格哈希索引的密度聚类方法及装置,包括:一种基于动态网格哈希索引的密度聚类方法,包括:获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;根据现有的带有类标签的数据建立索引G;重复执行以下步骤将D中的每个数据对象p插入到索引G;A1、获取PNeighborhood(op),并根据PNEps(op)判断p为核心点的概率;A2、获取UpSeedins(p);A3、若UpSeedins(p)中的对象所属类别不同,但插入p后UpSeedins(p)中的所有对象可直接或间接密度可达,则将p及UpSeedins(p)包含的对象所在的聚类合并;和/或;根据现有的带有类标签的数据建立索引G,并在原数据集中查找p的位置;重复执行以下步骤将D中的每个数据对象p从索引G中删除;B1:获取PNeighborhood(op),PNEps(op)及UpSeeddel(p);B2:若UpSeeddel(p)含有的数据对象不能彼此直接密度可达,且通过同类簇的其他的核心点依然不能使其密度可达,则原聚类被分成若干个聚类;循环结束后得到完成增量聚类的数据集。进一步地,在获取UpSeedins(p)后,还包括:若UpSeedins(p)为空,且NEps(p)内不包含核心对象,则将p视为噪音并返回∞。进一步地,在获取UpSeedins(p)后,还包括:若UpSeedins(p)非空,所包含的对象不仅其密度可达对象中没有已知聚类中的核心对象而且不属于任何聚类,则创建新的聚类并返回∞。进一步地,在获取UpSeedins(p)后,还包括:在插入p之前,若UpSeedins(p)所包含的对象所属聚类相同或者包含的对象类标签不同而且在插入p后不同类标签的数据仍然不能够密度可达或者UpSeedins(p)为空,且NEps(p)内有核心对象,则将p归并到某一聚类并返回∞。进一步地,在获取PNeighborhood(op),PNEps(op)及UpSeeddel(p)后,还包括:若p为噪音,则删除并返回∞。进一步地,在获取PNeighborhood(op),PNEps(op)及UpSeeddel(p)后,还包括:若p不是噪音且UpSeeddel(p)为空,p被删除后NEps(p)不存在核心点,则与p同类的其他数据点设为噪音并返回∞。进一步地,在获取PNeighborhood(op),PNEps(op)及UpSeeddel(p)后,还包括:若UpSeeddel(p)为空,但NEps(p)仍然包含核心对象;或者UpSeeddel(p)中的数据点均可直接密度可达,则删除p后这些数据对象依然同类簇并返回∞。一种基于动态网格哈希索引的密度聚类装置,包括:信息输入单元,用于获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;数据插入单元,用于依据所述获取增量预设信息,通过权利要求1所述密度聚类方法,生成在所述原数据集基础上进行增量聚类后的数据集;搜索结果输出单元,用于输出所述增量聚类单元所生成的完成增量聚类的数据集。一种设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于动态网格哈希索引的密度聚类方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的基于动态网格哈希索引的密度聚类方法的步骤。本申请具有以下优点:在本申请的实施例中,通过获取增量预本文档来自技高网
...

【技术保护点】
1.一种基于动态网格哈希索引的密度聚类方法,其特征在于,包括:/n获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;/n根据现有的带有类标签的数据建立索引G;/n重复执行以下步骤将D中的每个数据对象p插入到索引G:/nA1、获取PNeighborhood(o

【技术特征摘要】
1.一种基于动态网格哈希索引的密度聚类方法,其特征在于,包括:
获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;
根据现有的带有类标签的数据建立索引G;
重复执行以下步骤将D中的每个数据对象p插入到索引G:
A1、获取PNeighborhood(op),并根据PNEps(op)判断p为核心点的概率;
A2、获取UpSeedins(p);
A3、若UpSeedins(p)中的对象所属类别不同,但插入p后UpSeedins(p)中的所有对象可直接或间接密度可达,则将p及UpSeedins(p)包含的对象所在的聚类合并;
和/或;
根据现有的带有类标签的数据建立索引G,并在原数据集中查找p的位置;
重复执行以下步骤将D中的每个数据对象p从索引G中删除;
B1:获取PNeighborhood(op),PNEps(op)及UpSeeddel(p);
B2:若UpSeeddel(p)含有的数据对象不能彼此直接密度可达,且通过同类簇的其他的核心点依然不能使其密度可达,则原聚类被分成若干个聚类;
循环结束后得到完成增量聚类的数据集。


2.根据权利要求1所述的方法,其特征在于,在获取UpSeedins(p)后,还包括:若UpSeedins(p)为空,且NEps(p)内不包含核心对象,则将p视为噪音并返回∞。


3.根据权利要求1所述的方法,其特征在于,在获取UpSeedins(p)后,还包括:若UpSeedins(p)非空,所包含的对象不仅其密度可达对象中没有已知聚类中的核心对象而且不属于任何聚类,则创建新的聚类并返回∞。


4.根据权利要求1所述的方法,其特征在于,在获取UpSeedins(p)后,还包括:在插入p之前,若UpSeedins(p)所包含的对象所属聚类相同或者包含的对象类标签不同而且在插入p后不同类标签的数...

【专利技术属性】
技术研发人员:毛睿张贺陆敏华廖好王毅刘刚
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1