【技术实现步骤摘要】
本专利技术属于自然语言处理领域,具体涉及一种基于粒球的dbscan的词义聚类方法。
技术介绍
1、词义聚类是将具有相似语义的词语进行分组和聚集的过程,现有的语义聚类方法主要可以分为以下几类:k均值聚类、层次聚类、密度聚类以及谱聚类。其中k均值聚类是将数据点分为k个簇,每个簇都有一个代表性的中心点,即聚类中心,对于每个数据点,计算其与各个聚类中心的距离,并将其分配给与之最近的聚类中心所代表的簇。层次聚类为通过逐步合并或分裂簇来构建层次结构的聚类方法,它可以分为两种类型:凝聚型和分裂型;凝聚型从每个数据点作为一个单独的簇开始,然后逐步合并具有最小距离的簇;分裂型从所有数据点作为一个簇开始,然后逐步分裂具有最大距离的簇。密度聚类为基于数据点之间的密度来进行聚类;它将数据点分为核心点、边界点和噪声点,如果是核心点,则以该点为中心,通过密度可达性将其邻域内的所有数据点归为同一个簇。谱聚类为基于图论和线性代数的聚类方法;它将词语表示为图的节点,通过计算词语之间的相似度构建图,并在图上进行聚类。
2、在词义聚类的相关技术中,密度聚类具有其
...【技术保护点】
1.一种基于粒球的DBSCAN的词义聚类方法,其特征在于,包括:
2.根据权利要求1所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象P作为粒球起点,将P和K个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的K个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。
3.根据权利要求2所述的一种基于粒球的DBSCAN的词义聚类方法,其特征在于,K的值设置为其中n为数据集中数据
...【技术特征摘要】
1.一种基于粒球的dbscan的词义聚类方法,其特征在于,包括:
2.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据词数据集生成对应的粒球包括:从词数据集中随机选取一个数据对象p作为粒球起点,将p和k个近邻划分为一个粒球;随机选取一个不包含在粒球中的数据对象作为另一个粒球的起点,将选取的数据对象和以该数据对象为起点的k个近邻划分为一个新的粒球;重复上述过程,直到所有的数据均被粒球覆盖,则完成粒球的生成。
3.根据权利要求2所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,k的值设置为其中n为数据集中数据对象的数量。
4.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,确定各个粒球的密度值为:采用中心和半径对每一个粒球gb特性进行描述,一个粒球包括m个数据点x1,x2,...,xm,则粒球的中心是m个数据点的重心,计算粒球的中心,计算m个数据点到粒球中心的最大距离,该最大距离为粒球的半径;其中粒球的中心为:
5.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,设置阈值包括:对所有生成粒球的半径按升序排序,得到序列rlist;设置核心粒球core-gbs在所有粒球中的占比参数ratio;将rt设置为rlist中的对应第ratio个位置的半径大小。
6.根据权利要求1所述的一种基于粒球的dbscan的词义聚类方法,其特征在于,根据核心粒球的密度可达关系对核心粒球进行聚类合并包括:核心粒球的密度可达关系包括直接密度...
【专利技术属性】
技术研发人员:王国胤,张城,夏书银,程东东,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。