System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于粒球的DBSCAN的词义聚类方法技术_技高网

一种基于粒球的DBSCAN的词义聚类方法技术

技术编号:41131491 阅读:5 留言:0更新日期:2024-04-30 18:01
本发明专利技术属于自然语言处理领域,具体涉及一种基于粒球的DBSCAN的词义聚类方法,包括:获取待聚类的文本数据,对文本数据进行词语划分,得到词数据集;根据词数据集生成对应的粒球,并确定各个粒球的密度值;设置阈值,将各个粒球的密度值与设置的阈值进行对比,若小于设置的阈值,则将该粒球划分为非核心粒球,否则为核心粒球;根据核心粒球的密度可达关系对核心粒球进行聚类合并,生成类簇;将非核心粒球分配到对应的类簇中,完成聚类;本发明专利技术可以用更简单的参数调节步骤,更小的时间复杂度得到高准确率的聚类结果,为词义聚类相关领域提供更高效和更准确的解决方案。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体涉及一种基于粒球的dbscan的词义聚类方法。


技术介绍

1、词义聚类是将具有相似语义的词语进行分组和聚集的过程,现有的语义聚类方法主要可以分为以下几类:k均值聚类、层次聚类、密度聚类以及谱聚类。其中k均值聚类是将数据点分为k个簇,每个簇都有一个代表性的中心点,即聚类中心,对于每个数据点,计算其与各个聚类中心的距离,并将其分配给与之最近的聚类中心所代表的簇。层次聚类为通过逐步合并或分裂簇来构建层次结构的聚类方法,它可以分为两种类型:凝聚型和分裂型;凝聚型从每个数据点作为一个单独的簇开始,然后逐步合并具有最小距离的簇;分裂型从所有数据点作为一个簇开始,然后逐步分裂具有最大距离的簇。密度聚类为基于数据点之间的密度来进行聚类;它将数据点分为核心点、边界点和噪声点,如果是核心点,则以该点为中心,通过密度可达性将其邻域内的所有数据点归为同一个簇。谱聚类为基于图论和线性代数的聚类方法;它将词语表示为图的节点,通过计算词语之间的相似度构建图,并在图上进行聚类。

2、在词义聚类的相关技术中,密度聚类具有其独特的优势。主要有以下几方面:能够捕捉非球形的簇形状,在词义聚类中,词语之间的语义关系可能具有复杂的形状,而密度聚类方法可以更好地适应非球形的簇形状,密度聚类可以根据词语之间的密度分布来确定簇的形状和大小,从而更准确地捕捉到词义之间的关系;不需要预先指定簇的数量,可以自动发现数据中存在的簇,并根据密度分布将词语分配到相应的簇中,这种无需预先指定簇数量的特性使得密度聚类方法在词义聚类中更加灵活和方便。但是,目前大部分密度聚类算法存在参数调节复杂以及计算时间复杂度较高的问题。


技术实现思路

1、为了解决密度聚类算法在词义聚类中参数调节困难和在大规模数据集下聚类速率慢的问题,本专利技术提出了一种基于粒球的dbscan的词义聚类方法,该方法包括:

2、s1、获取待聚类的文本数据,对文本数据进行词语划分,得到词数据集;

3、s2、根据词数据集生成对应的粒球,并确定各个粒球的密度值;

4、s3、设置阈值,将各个粒球的密度值与设置的阈值进行对比,若小于设置的阈值,则将该粒球划分为非核心粒球,否则为核心粒球;

5、s4、根据核心粒球的密度可达关系对核心粒球进行聚类合并,生成类簇;

6、s5、将非核心粒球分配到对应的类簇中,完成聚类。

7、优选的,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象p作为粒球起点,将p和k个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的k个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。

8、进一步的,k的值设置为其中n为数据集中数据对象的数量。

9、优选的,确定各个粒球的密度值为:采用中心和半径对每一个粒球gb特性进行描述,一个粒球包括m个数据点x1,x2,...,xm,则粒球的中心是m个数据点的重心,计算粒球的中心,计算m个数据点到粒球中心的最大距离,该最大距离为粒球的半径;其中粒球的中心为:

10、

11、半径为:

12、

13、其中,gb为粒球,m为粒球中的数据点数量,xi为粒球中的第i个数据点,dist为距离函数。

14、优选的,设置阈值包括:对所有生成粒球的半径按升序排序,得到序列rlist;设置核心粒球core-gbs在所有粒球中的占比参数ratio;将rt设置为rlist中的对应第ratio个位置的半径大小。

15、优选的,根据核心粒球的密度可达关系对核心粒球进行聚类合并包括:核心粒球的密度可达关系包括直接密度可达关系和密度可达关系;选取一个未被访问过的核心粒球,从所有的其他粒球中筛选出与核心粒球满足直接密度可达关系和密度可达关系的粒球,将筛选出的粒球合并为一个类簇,重复上述过程,直到所有核心粒球均本访问,完成核心粒球合并操作。

16、进一步的,直接密度可达关系为:给定两个核心粒球cgbx和cgby,它们的半径分别为radius(x)和radius(y),它们之间的距离为dist(x,y);当两个核心粒球直接的距离小于等于半径之和,即dist(x,y)≤radius(x)+radius(y),则称cgbx和cgby之间为直接密度可达关系。

17、进一步的,密度可达关系为:给定三个核心粒球cgbx,cgby和cgbz,若cgb x和cgby之间为直接密度可达关系,cgby和cgbz之间为直接密度可达关系,则cgbx和cgbz之间也为密度可达关系。

18、优选的,将非核心粒球分配到对应的类簇包括:将非核心粒球划分为两类,分别为第一非核心粒球数据集和第二非核心粒球数据集,其中第一非核心粒球数据集为该数据集中非核心粒球内的部分数据已被聚类,第二非核心粒球数据集为该数据集中非核心粒球内的数据未被聚类;对于第一非核心粒球数据集中非核心粒球内的未被聚类的数据点分配给距离最近的数据对象o;将第二非核心粒球数据集中的非核心粒球分配给距离最近的核心粒球,完成聚类。

19、本专利技术的有益效果:

20、本专利技术可以用更简单的参数调节步骤,更小的时间复杂度得到高准确率的聚类结果,为词义聚类相关领域提供更高效和更准确的解决方案。本专利技术用粒球代替数据点进行密度聚类操作,更好的刻画了数据对象间的密度关系,优化了参数调节,减少了计算时间复杂度,并且本专利技术采用合适的粒球合并与分配策略提高了聚类结果的准确性,有助于提高词义聚类中的易用性与准确性。

本文档来自技高网...

【技术保护点】

1.一种基于粒球的DBSCAN的词义聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象P作为粒球起点,将P和K个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的K个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,K的值设置为其中n为数据集中数据对象的数量。

4.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,确定各个粒球的密度值为:采用中心和半径对每一个粒球gb特性进行描述,一个粒球包括m个数据点x1,x2,...,xm,则粒球的中心是m个数据点的重心,计算粒球的中心,计算m个数据点到粒球中心的最大距离,该最大距离为粒球的半径;其中粒球的中心为:

5.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,设置阈值包括:对所有生成粒球的半径按升序排序,得到序列Rlist;设置核心粒球Core-GBs在所有粒球中的占比参数Ratio;将Rt设置为Rlist中的对应第Ratio个位置的半径大小。

6.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,根据核心粒球的密度可达关系对核心粒球进行聚类合并包括:核心粒球的密度可达关系包括直接密度可达关系和密度可达关系;选取一个未被访问过的核心粒球,从所有的其他粒球中筛选出与核心粒球满足直接密度可达关系和密度可达关系的粒球,将筛选出的粒球合并为一个类簇,重复上述过程,直到所有核心粒球均本访问,完成核心粒球合并操作。

7.根据权利要求6所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,直接密度可达关系为:给定两个核心粒球CGBx和CGBy,它们的半径分别为Radius(x)和Radius(y),它们之间的距离为dist(x,y);当两个核心粒球直接的距离小于等于半径之和,即dist(x,y)≤Radius(x)+Radius(y),则称CGBx和CGBy之间为直接密度可达关系。

8.根据权利要求6所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,密度可达关系为:给定三个核心粒球CGBx,CGBy和CGBz,若CGB x和CGBy之间为直接密度可达关系,CGBy和CGBz之间为直接密度可达关系,则CGBx和CGBz之间也为密度可达关系。

9.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,将非核心粒球分配到对应的类簇包括:将非核心粒球划分为两类,分别为第一非核心粒球数据集和第二非核心粒球数据集,其中第一非核心粒球数据集为该数据集中非核心粒球内的部分数据已被聚类,第二非核心粒球数据集为该数据集中非核心粒球内的数据未被聚类;对于第一非核心粒球数据集中非核心粒球内的未被聚类的数据点分配给距离最近的数据对象o;将第二非核心粒球数据集中的非核心粒球分配给距离最近的核心粒球,完成聚类。

...

【技术特征摘要】

1.一种基于粒球的dbscan的词义聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象p作为粒球起点,将p和k个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的k个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,k的值设置为其中n为数据集中数据对象的数量。

4.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,确定各个粒球的密度值为:采用中心和半径对每一个粒球gb特性进行描述,一个粒球包括m个数据点x1,x2,...,xm,则粒球的中心是m个数据点的重心,计算粒球的中心,计算m个数据点到粒球中心的最大距离,该最大距离为粒球的半径;其中粒球的中心为:

5.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,设置阈值包括:对所有生成粒球的半径按升序排序,得到序列rlist;设置核心粒球core-gbs在所有粒球中的占比参数ratio;将rt设置为rlist中的对应第ratio个位置的半径大小。

6.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据核心粒球的密度可达关系对核心粒球进行聚类合并包括:核心粒球的密度可达关系包括直接密度...

【专利技术属性】
技术研发人员:王国胤张城夏书银程东东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1