【技术实现步骤摘要】
文本聚类方法及装置
本专利技术涉及文本数据挖掘
,尤其涉及一种文本聚类方法及装置。
技术介绍
随着计算机技术的不断发展与应用,数字化文本数据的数量不断增长。随着互联网的发展,进一步加剧了文本数据的增加。在这种背景下,利用聚类技术对文本数据进行简化分析,将文本分门别类,便于用户在海量的网络信息中查找有用的信息,提高网络的服务质量。高效快速的文本聚类技术可以将海量的文本数据分成多个有意义的类别,广泛应用于文本挖掘与信息检索等方面。文本聚类技术在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。文本聚类技术的目标是将文本集合分成若干个类,要求同一类中的文本内容的相似度尽可能的大,而不同类之间相似度尽可能的小。常见的聚类算法有K-means(K均值)聚类算法、DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,基于密度的聚类)和BIRCH(BalancedIterativeReducingandClustering ...
【技术保护点】
1.一种文本聚类方法,其特征在于,包括:/n对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;/n将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;/n根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。/n
【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:
对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述将每个待聚类文本中的词语转换为词向量,包括:
将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
3.根据权利要求2所述的文本聚类方法,其特征在于,所述将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量,包括:
将所有所述待聚类文本中的词语作为所述样本词语,对所述Word2vec模型进行训练;
将每个待聚类文本中的词语输入训练后的Word2vec模型,输出每个待聚类文本中词语的词向量。
4.根据权利要求1-3任一所述的文本聚类方法,其特征在于,所述将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量,包括:
对于任一待聚类文本,将该待聚类文本中所有词语的词向量相加后除以该待聚类文本中词语的总数量,获取该待聚类文本的文档向量。
5.根据权利要求1-3任一所述的文本聚类方法,其特征在于,所述根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相...
【专利技术属性】
技术研发人员:万飞,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。