【技术实现步骤摘要】
文本聚类方法和装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种文本聚类方法和装置、存储介质及电子装置。
技术介绍
现有短文本聚类方法主要有基于相似度距离、基于密度、基于主题模型的聚类方法。其中,基于相似度距离的聚类方法将所有文本聚为事先指定数目的若干类,聚类的过程可以概括为:迭代计算文本到各个聚类中心的距离以及更新各个聚类中心的位置,聚类的结果是同一类之间的文本相似度较高,不同类之间的文本相似度较低。常见的基于相似度距离的聚类方法有k-means,k-medoids等,常被用于计算相似度的特征有N-gram、tf-idf、word2vec等,而常用的距离测度有余弦距离、绝对值距离、欧式距离等。基于密度的聚类方法将所有文本划分成若干个密度较大的簇,其聚类过程可以概括为:迭代寻找密度较大的子簇,并将该子簇加入到最近的簇中。DBSCAN是一种典型的基于密度的聚类算法,其聚类得到的每个簇包含很多密度相连的核心点,每个核心点在其半径邻域内包含的文本数目都大于事先设置的某个阈值,密度相连是指两个核心点之间可以互相关于指定半径密度可达。基于主题模型的聚类方 ...
【技术保护点】
1.一种文本聚类方法,其特征在于,包括:根据待聚类文本之间的特征相似度构建相似度图,其中,所述相似度图中的每个节点表示所述待聚类文本中的一个文本,且所述相似度图中存在连接的两个节点所表示的文本之间的所述特征相似度大于第一阈值;从所述相似度图中的相似团中获取目标相似团,其中,每个所述相似团包括所述相似度图中由所述连接形成的封闭图形中的节点,或者,所述相似度图中与其他节点都不连接的节点;通过所述目标相似团确定所述待聚类文本的聚类结果。
【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:根据待聚类文本之间的特征相似度构建相似度图,其中,所述相似度图中的每个节点表示所述待聚类文本中的一个文本,且所述相似度图中存在连接的两个节点所表示的文本之间的所述特征相似度大于第一阈值;从所述相似度图中的相似团中获取目标相似团,其中,每个所述相似团包括所述相似度图中由所述连接形成的封闭图形中的节点,或者,所述相似度图中与其他节点都不连接的节点;通过所述目标相似团确定所述待聚类文本的聚类结果。2.根据权利要求1所述的方法,其特征在于,所述根据待聚类文本之间的特征相似度构建相似度图包括:获取所述待聚类文本的特征;根据所述待聚类文本的特征获取预设的多个节点中每两个节点所表示的文本之间的特征相似度,其中,所述多个节点与所述待聚类文本一一对应,所述多个节点中的每个节点表示所述待聚类文本中的一个文本;在所述多个节点中的所述特征相似度大于所述第一阈值的两个节点之间形成所述连接,得到所述相似度图。3.根据权利要求2所述的方法,其特征在于,所述获取所述待聚类文本的特征包括:获取所述待聚类文本中每个文本基于切字和切词的N-gram特征,得到N-gram特征集合,其中,所述N-gram特征集合包括所述待聚类文本中所有文本的所述N-gram特征;从所述N-gram特征集合中确定目标特征集合,其中,所述目标特征集合中的每个特征在所述N-gram特征集合中出现的次数大于第二阈值;对于所述待聚类文本中的每个文本均执行以下步骤,其中,执行所述以下步骤时的文本被称为当前文本:将所述当前文本的特征设置为用于表示所述当前文本的N-gram特征中出现在所述目标特征集合中的目标特征。4.根据权利要求2所述的方法,其特征在于,所述根据所述待聚类文本的特征获取预设的多个节点中每两个节点所表示的文本之间的特征相似度包括:对于所述多个节点中每两个节点均执行以下步骤,其中,执行以下步骤时的两个节点被称为第一节点和第二节点:获取第一文本的特征和第二文本的特征之间的交集和并集,其中,所述第一文本为所述第一节点所表示的文本,所述第二文本为所述第二节点所表示的文本;将所述第一节点和所述第二节点所表示的文本之间的特征相似度设置为与所述交集中的特征的个数和所述并集中的特征的个数相关。5.根据权利要求3所述的方法,其特征在于,将所述当前文本的特征设置为用于表示所述当前文本的N-gram特征中出现在所述目标特征集合中的目标特征包括:获取所述当前文本的N-gram特征中出现在所述目标特征集合中的目标特征;获取用于表示所述目标特征在所述目标特征集合中的位置的位置索引;将所述当前文本的特征设置为所述位置索引。6.根据权利要求1所述的方法,其特征在于,从所述相似度图中的相似团中获取目标相似团包括:将所述相似度图中的多个相似团进行合并,得到所述目标相似团。7.根据...
【专利技术属性】
技术研发人员:习自,赵学敏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。