一种基于粒球的DBSCAN的词义聚类方法技术

技术编号：41131491 阅读：26 留言：0更新日期：2024-04-30 18:01

本发明专利技术属于自然语言处理领域，具体涉及一种基于粒球的DBSCAN的词义聚类方法，包括：获取待聚类的文本数据，对文本数据进行词语划分，得到词数据集；根据词数据集生成对应的粒球，并确定各个粒球的密度值；设置阈值，将各个粒球的密度值与设置的阈值进行对比，若小于设置的阈值，则将该粒球划分为非核心粒球，否则为核心粒球；根据核心粒球的密度可达关系对核心粒球进行聚类合并，生成类簇；将非核心粒球分配到对应的类簇中，完成聚类；本发明专利技术可以用更简单的参数调节步骤，更小的时间复杂度得到高准确率的聚类结果，为词义聚类相关领域提供更高效和更准确的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种基于粒球的dbscan的词义聚类方法。

技术介绍

1、词义聚类是将具有相似语义的词语进行分组和聚集的过程，现有的语义聚类方法主要可以分为以下几类：k均值聚类、层次聚类、密度聚类以及谱聚类。其中k均值聚类是将数据点分为k个簇，每个簇都有一个代表性的中心点，即聚类中心，对于每个数据点，计算其与各个聚类中心的距离，并将其分配给与之最近的聚类中心所代表的簇。层次聚类为通过逐步合并或分裂簇来构建层次结构的聚类方法，它可以分为两种类型：凝聚型和分裂型；凝聚型从每个数据点作为一个单独的簇开始，然后逐步合并具有最小距离的簇；分裂型从所有数据点作为一个簇开始，然后逐步分裂具有最大距离的簇。密度聚类为基于数据点之间的密度来进行聚类；它将数据点分为核心点、边界点和噪声点，如果是核心点，则以该点为中心，通过密度可达性将其邻域内的所有数据点归为同一个簇。谱聚类为基于图论和线性代数的聚类方法；它将词语表示为图的节点，通过计算词语之间的相似度构建图，并在图上进行聚类。

2、在词义聚类的相关技术中，密度聚类具有其...

【技术保护点】

1.一种基于粒球的DBSCAN的词义聚类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法，其特征在于，根据词数据集生成对应的粒球包括：从词数据集中随机选取一个数据对象P作为粒球起点，将P和K个近邻划分为一个粒球；随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点，将选取的数据对象和以该数据对象为起点的K个近邻划分为一个新的粒球；重复上述过程，直到所有的数据均被粒球覆盖，则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的DBSCAN的词义聚类方法，其特征在于，K的值设置为其中n为数据集中数据对象的数量。

...

【技术特征摘要】

1.一种基于粒球的dbscan的词义聚类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法，其特征在于，根据词数据集生成对应的粒球包括：从词数据集中随机选取一个数据对象p作为粒球起点，将p和k个近邻划分为一个粒球；随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点，将选取的数据对象和以该数据对象为起点的k个近邻划分为一个新的粒球；重复上述过程，直到所有的数据均被粒球覆盖，则完成粒球的生成。

3.根据权利要求2所述的一种基于粒球的dbscan的词义聚类方法，其特征在于，k的值设置为其中n为数据集中数据对象的数量。

4.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法，其特征在于，确定各个粒球的密度值为：采用中心和半径对每一个粒球gb特性进行描述，一个粒球包括m个数据点x1,x2,...,xm，则粒球的中心是m个数据点的重心，计算粒球的中心，计算m个数据点到粒球中心的最大距离，该最大距离为粒球的半径；其中粒球的中心为：

5.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法，其特征在于，设置阈值包括：对所有生成粒球的半径按升序排序，得到序列rlist；设置核心粒球core-gbs在所有粒球中的占比参数ratio；将rt设置为rlist中的对应第ratio个位置的半径大小。

6.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法，其特征在于，根据核心粒球的密度可达关系对核心粒球进行聚类合并包括：核心粒球的密度可达关系包括直接密度...

【专利技术属性】
技术研发人员：王国胤，张城，夏书银，程东东，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人