一种基于粒球的DBSCAN的词义聚类方法技术

技术编号:41131491 阅读:26 留言:0更新日期:2024-04-30 18:01
本发明专利技术属于自然语言处理领域,具体涉及一种基于粒球的DBSCAN的词义聚类方法,包括:获取待聚类的文本数据,对文本数据进行词语划分,得到词数据集;根据词数据集生成对应的粒球,并确定各个粒球的密度值;设置阈值,将各个粒球的密度值与设置的阈值进行对比,若小于设置的阈值,则将该粒球划分为非核心粒球,否则为核心粒球;根据核心粒球的密度可达关系对核心粒球进行聚类合并,生成类簇;将非核心粒球分配到对应的类簇中,完成聚类;本发明专利技术可以用更简单的参数调节步骤,更小的时间复杂度得到高准确率的聚类结果,为词义聚类相关领域提供更高效和更准确的解决方案。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体涉及一种基于粒球的dbscan的词义聚类方法。


技术介绍

1、词义聚类是将具有相似语义的词语进行分组和聚集的过程,现有的语义聚类方法主要可以分为以下几类:k均值聚类、层次聚类、密度聚类以及谱聚类。其中k均值聚类是将数据点分为k个簇,每个簇都有一个代表性的中心点,即聚类中心,对于每个数据点,计算其与各个聚类中心的距离,并将其分配给与之最近的聚类中心所代表的簇。层次聚类为通过逐步合并或分裂簇来构建层次结构的聚类方法,它可以分为两种类型:凝聚型和分裂型;凝聚型从每个数据点作为一个单独的簇开始,然后逐步合并具有最小距离的簇;分裂型从所有数据点作为一个簇开始,然后逐步分裂具有最大距离的簇。密度聚类为基于数据点之间的密度来进行聚类;它将数据点分为核心点、边界点和噪声点,如果是核心点,则以该点为中心,通过密度可达性将其邻域内的所有数据点归为同一个簇。谱聚类为基于图论和线性代数的聚类方法;它将词语表示为图的节点,通过计算词语之间的相似度构建图,并在图上进行聚类。

2、在词义聚类的相关技术中,密度聚类具有其独特的优势。主要有以本文档来自技高网...

【技术保护点】

1.一种基于粒球的DBSCAN的词义聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象P作为粒球起点,将P和K个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的K个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,K的值设置为其中n为数据集中数据对象的数量。

...

【技术特征摘要】

1.一种基于粒球的dbscan的词义聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象p作为粒球起点,将p和k个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的k个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,k的值设置为其中n为数据集中数据对象的数量。

4.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,确定各个粒球的密度值为:采用中心和半径对每一个粒球gb特性进行描述,一个粒球包括m个数据点x1,x2,...,xm,则粒球的中心是m个数据点的重心,计算粒球的中心,计算m个数据点到粒球中心的最大距离,该最大距离为粒球的半径;其中粒球的中心为:

5.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,设置阈值包括:对所有生成粒球的半径按升序排序,得到序列rlist;设置核心粒球core-gbs在所有粒球中的占比参数ratio;将rt设置为rlist中的对应第ratio个位置的半径大小。

6.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据核心粒球的密度可达关系对核心粒球进行聚类合并包括:核心粒球的密度可达关系包括直接密度...

【专利技术属性】
技术研发人员:王国胤张城夏书银程东东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1