文本聚类方法技术

技术编号:39719038 阅读:10 留言:0更新日期:2023-12-17 23:25
本发明专利技术提供一种文本聚类方法

【技术实现步骤摘要】
文本聚类方法、装置及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本聚类方法

装置及电子设备


技术介绍

[0002]文本聚类主要依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小

作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力

[0003]随着互联网进程高速发展,海量的文本信息呈现爆炸式增长,网络已然变成一个杂乱无序的桌面图书馆

如何对海量的文本实现文本的自动分类就显得尤为重要,在查找文本时不仅能够实现文本的精确定位,更能节省文本的查找时间

[0004]传统的文本聚类算法都是单独根据文本的文本相似度

语义相似度来进行聚类,可能会存在将同一类别的文本分配至不同类别中,使得对文本进行聚类的过程中准确率不高


技术实现思路

[0005]本专利技术实施例提供一种文本聚类方法

装置及电子设备,用以解决现有技术中对文本进行聚类的过程中准确率不高的技术问题

[0006]第一方面,本申请实施例提供一种文本聚类方法,包括:
[0007]基于第一文本获取第一分词结果,并基于第二文本获取第二分词结果;
[0008]基于所述第一分词结果和所述第二分词结果,确定文本相似度矩阵和文本差异化矩阵,所述文本差异化矩阵是基于所述第一文本和所述第二文本之间的编辑距离确定的;
[0009]根据所述文本相似度矩阵和所述文本差异化矩阵,对所述第一文本和所述第二文本进行聚类处理

[0010]在一些实施例中,所述基于所述第一分词结果和所述第二分词结果,确定文本差异化矩阵,包括:
[0011]基于所述第一分词结果和所述第二分词结果,确定所述第一文本和所述第二文本之间的编辑距离,并计算所述第一文本和所述第二文本之间字符串的最大长度;
[0012]基于所述编辑距离和所述字符串的最大长度,确定所述文本差异化矩阵

[0013]在一些实施例中,所述基于所述第一分词结果和所述第二分词结果,确定文本相似度矩阵,包括:
[0014]基于所述第一分词结果和所述第二分词结果,确定第一文本的文本向量和第二文本的文本向量;
[0015]根据所述第一文本的文本向量和所述第二文本的文本向量,构建待聚类文本的文本向量矩阵;所述待聚类文本包括所述第一文本和所述第二文本;
[0016]基于所述待聚类文本的文本向量矩阵,计算得到所述第一文本和所述第二文本之
间的文本相似度矩阵

[0017]在一些实施例中,所述基于所述第一分词结果和所述第二分词结果,确定第一文本的文本向量和第二文本的文本向量,包括:
[0018]基于所述第一分词结果和所述第二分词结果,确定第一文本的词集合和第二文本的词集合;
[0019]将所述第一文本的词集合和所述第二文本的词集合分别输入到用于语言处理的词向量模型中,获取所述词向量模型输出的第一文本中全部词的词向量和第二文本中全部词的词向量;
[0020]根据所述第一文本中全部词的词向量和所述第二文本中全部词的词向量,计算得到所述第一文本的文本向量和所述第二文本的文本向量

[0021]在一些实施例中,所述词向量模型为
word2vec
模型

[0022]在一些实施例中,所述根据所述第一文本中全部词的词向量和所述第二文本中全部词的词向量,计算得到所述第一文本的文本向量和所述第二文本的文本向量,包括:
[0023]对所述第一文本中全部词的词向量进行加权求和取平均,得到所述第一文本的文本向量,并对所述第二文本中全部词的词向量进行加权求和取平均,得到所述第二文本的文本向量

[0024]在一些实施例中,所述根据所述文本相似度矩阵和所述文本差异化矩阵,对所述第一文本和所述第二文本进行聚类处理,包括:
[0025]根据所述文本相似度矩阵和所述文本差异化矩阵,确定所述第一文本和所述第二文本之间的相似度和差异度;
[0026]基于所述相似度和所述差异度,确定所述第一文本和所述第二文本的聚类结果;
[0027]基于所述聚类结果,对所述第一文本和所述第二文本进行聚类处理

[0028]在一些实施例中,所述基于所述聚类结果,对所述第一文本和所述第二文本进行聚类处理,包括:
[0029]在所述聚类结果大于预设值的情况下,将所述第一文本和所述第二文本聚为一类

[0030]第二方面,本申请实施例还提供一种文本聚类装置,包括:
[0031]第一获取模块,用于基于第一文本获取第一分词结果,并基于第二文本获取第二分词结果;
[0032]第一确定模块,用于基于所述第一分词结果和所述第二分词结果,确定文本相似度矩阵和文本差异化矩阵,所述文本差异化矩阵是基于所述第一文本和所述第二文本之间的编辑距离确定的;
[0033]第一处理模块,用于根据所述文本相似度矩阵和所述文本差异化矩阵,对所述第一文本和所述第二文本进行聚类处理

[0034]在一些实施例中,所述第一确定模块包括第一处理子模块,第一确定子模块,其中:
[0035]所述第一处理子模块用于基于所述第一分词结果和所述第二分词结果,确定所述第一文本和所述第二文本之间的编辑距离,并计算所述第一文本和所述第二文本之间字符串的最大长度;
[0036]所述第一确定子模块用于基于所述编辑距离和所述字符串的最大长度,确定所述文本差异化矩阵

[0037]在一些实施例中,所述第一确定模块包括第二确定子模块,第一构建子模块,第一计算子模块,其中:
[0038]所述第二确定子模块用于基于所述第一分词结果和所述第二分词结果,确定第一文本的文本向量和第二文本的文本向量;
[0039]所述第一构建子模块用于根据所述第一文本的文本向量和所述第二文本的文本向量,构建待聚类文本的文本向量矩阵;所述待聚类文本包括所述第一文本和所述第二文本;
[0040]所述第一计算子模块用于基于所述待聚类文本的文本向量矩阵,计算得到所述第一文本和所述第二文本之间的文本相似度矩阵

[0041]在一些实施例中,所述第二确定子模块包括第一确定单元,第一获取单元,第一义计算单元,其中:
[0042]所述第一确定单元用于基于所述第一分词结果和所述第二分词结果,确定第一文本的词集合和第二文本的词集合;
[0043]所述第一获取单元用于将所述第一文本的词集合和所述第二文本的词集合分别输入到用于语言处理的词向量模型中,获取所述词向量模型输出的第一文本中全部词的词向量和第二文本中全部词的词向量;
[0044]所述第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本聚类方法,其特征在于,包括:基于第一文本获取第一分词结果,并基于第二文本获取第二分词结果;基于所述第一分词结果和所述第二分词结果,确定文本相似度矩阵和文本差异化矩阵,所述文本差异化矩阵是根据所述第一文本和所述第二文本之间的编辑距离确定的;根据所述文本相似度矩阵和所述文本差异化矩阵,对所述第一文本和所述第二文本进行聚类处理
。2.
根据权利要求1所述的文本聚类方法,其特征在于,所述基于所述第一分词结果和所述第二分词结果,确定文本差异化矩阵,包括:基于所述第一分词结果和所述第二分词结果,确定所述第一文本和所述第二文本之间的编辑距离,并计算所述第一文本和所述第二文本之间字符串的最大长度;基于所述编辑距离和所述字符串的最大长度,确定所述文本差异化矩阵
。3.
根据权利要求1所述的文本聚类方法,其特征在于,所述基于所述第一分词结果和所述第二分词结果,确定文本相似度矩阵,包括:基于所述第一分词结果和所述第二分词结果,确定第一文本的文本向量和第二文本的文本向量;根据所述第一文本的文本向量和所述第二文本的文本向量,构建待聚类文本的文本向量矩阵;所述待聚类文本包括所述第一文本和所述第二文本;基于所述待聚类文本的文本向量矩阵,计算得到所述第一文本和所述第二文本之间的文本相似度矩阵
。4.
根据权利要求3所述的文本聚类方法,其特征在于,所述基于所述第一分词结果和所述第二分词结果,确定第一文本的文本向量和第二文本的文本向量,包括:基于所述第一分词结果和所述第二分词结果,确定第一文本的词集合和第二文本的词集合;将所述第一文本的词集合和所述第二文本的词集合分别输入到词向量模型中,获取所述词向量模型输出的第一文本中全部词的词向量和第二文本中全部词的词向量;根据所述第一文本中全部词的词向量和所述第二文本中全部词的词向量,计算得到所述第一文本的文本向量和所述第二文本的文本向量
。5.
根据权利要求4所述的文本聚类方法,其特征在于...

【专利技术属性】
技术研发人员:万飞
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1