文本无监督聚类方法、装置、设备和介质制造方法及图纸

技术编号：40950093 阅读：3 留言：0更新日期：2024-04-18 20:24

本发明专利技术公开了文本无监督聚类方法、装置、设备及介质，包括：获取文本数据，基于预训练后的Roformer‑Sim改进模型对文本数据进行向量化，得到文本句向量；基于Infomap图算法将文本句向量进行社区网络划分，得到社区网络划分图；以划分图中每个文本句向量为节点，计算各两两相邻节点之间的余弦相似度，并以与社区网络划分图对应的各余弦相似度作为随机游走的概率构建哈夫曼编码，生成与社区网络划分图对应的编码序列；基于编码序列对社区网络划分图中的节点进行层次编码，以确定最短平均编码长度；基于最短平均编码长度将社区网络划分图中的节点进行聚类，得到聚类簇和聚类簇标签。提高了文本聚类的准确性、稳定性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及文本无监督聚类方法、装置、设备和介质。

技术介绍

1、在人工智能
，自然语言文本聚类是其中一项关键技术。目前对于中文自然语言的文本聚类方法，主要包括有监督学习和无监督学习。对于有监督学习的文本聚类，其现有的技术方案是先在训练前确定训练集中每个样本聚类所属的类别，然后使用有监督的聚类算法，如k-means(k均值聚类算法)等，对指定数量的文本聚类簇进行分类训练，实现预测未知类别的文本数据。对于基于传统词向量无监督的聚类，其现有的技术方案主要是基于词频统计的tf-idf(term frequency–inverse document frequency，又称词频统计法)和基于主题的lda(linear discriminant analysis，又称线性判别分析法)对文本进行向量表示，并通过这些文本向量进行无监督聚类，实现预测未知类别的文本数据。

2、然而，上述的现有技术方案在实际应用中均存在不同程度的缺陷。第一种，需要预先指定聚类的类别数量，然而，根据指定类别数量进行聚类判断，无法准确选取参数，分类误差较大会陷入局部最优，此时，如果文本不属于预先指定分类，就会明显分类错误，影响聚类效果。第二种，基于词频统计tf-idf的向量表示和基于主题的lda的向量表示，均忽略了词语在上下文语义中的关联信息。尤其对长文本的数据，采用这种方式会使聚类簇心发生偏移，从而导致同一个簇中文本间的相似性差异较大，聚类稳定性较差。此外，基于传统词向量无监督的方案未考虑除主要特征词以外的其他特征词对整个聚

3、因此，针对现有技术中存在的相似文本聚类准确性不高、稳定性较差的问题，尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种文本无监督聚类方法、装置、设备及介质，旨在解决现有技术方法中所存在的相似文本聚类准确性不高、稳定性较差的问题。

2、第一方面，本专利技术实施例提供了一种文本无监督聚类方法，所述方法包括：

3、获取文本数据，基于预训练后的roformer-sim改进模型对所述文本数据进行向量化，得到文本句向量；

4、基于infomap图算法将所述文本句向量进行社区网络划分，得到社区网络划分图；

5、以所述社区网络划分图中每个文本句向量为节点，计算各两两相邻节点之间的余弦相似度，并以与所述社区网络划分图对应的各余弦相似度作为随机游走的概率构建哈夫曼编码，生成与所述社区网络划分图对应的编码序列；

6、基于所述编码序列对所述社区网络划分图中的文本句向量节点进行层次编码，以确定最短平均编码长度；

7、基于所述最短平均编码长度将所述社区网络划分图中的文本句向量节点进行聚类，得到聚类簇和聚类簇标签。

8、第二方面，本专利技术实施例提供了一种文本无监督聚类装置，其包括：

9、文本向量化模块，用于获取文本数据，基于预训练后的roformer-sim改进模型对所述文本数据进行向量化，得到文本句向量；

10、网络划分模块，用于基于infomap图算法将所述文本句向量进行社区网络划分，得到社区网络划分图；

11、聚类模块，用于以所述社区网络划分图中每个文本句向量为节点，计算各两两相邻节点之间的余弦相似度，并以与所述社区网络划分图对应的各余弦相似度作为随机游走的概率构建哈夫曼编码，生成与所述社区网络划分图对应的编码序列，

12、基于所述编码序列对所述社区网络划分图中的文本句向量节点进行层次编码，以确定最短平均编码长度，

13、基于所述最短平均编码长度将所述社区网络划分图中的文本句向量节点进行聚类，得到聚类簇和聚类簇标签。

14、第三方面，本专利技术实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

15、第四方面，本专利技术实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的方法。

16、本专利技术实施例提供了一种文本无监督聚类方法及装置。获取文本数据，基于预训练后的roformer-sim改进模型对文本数据进行向量化，得到文本句向量；基于infomap图算法将文本句向量进行社区网络划分，得到社区网络划分图；以社区网络划分图中每个文本句向量为节点，计算各两两相邻节点之间的余弦相似度，并以与社区网络划分图对应的各余弦相似度作为随机游走的概率构建哈夫曼编码，生成与社区网络划分图对应的编码序列；基于编码序列对社区网络划分图中的文本句向量节点进行层次编码，以确定最短平均编码长度；基于最短平均编码长度将社区网络划分图中的文本句向量节点进行聚类，得到聚类簇和聚类簇标签。

17、上述方法中，先通过引入rope旋转位置编码的roformer-sim模型将文本数据向量化，以向量的近似度确定文本语义的相似度，解决了文本聚类中语义理解差的问题，提高了相似文本语义的准确性。然后基于层次编码和随机游走的infomap图算法进行无监督分类，能更好的理解相似的文本语义，解决文本类簇难以指定的难题。最后，本专利技术中提取类簇内高频词组作为类别标签，解决了类别解释不够直观的问题，提高了语义可解释性。

本文档来自技高网...

【技术保护点】

1.一种文本无监督聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取文本数据，基于预训练后的Roformer-Sim改进模型对所述文本数据进行向量化，得到文本句向量的步骤之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在所述获取文本数据，基于预训练后的Roformer-Sim改进模型对所述文本数据进行向量化，得到文本句向量的步骤之前，所述方法还包括：

4.根据权利要求3所述方法，其特征在于，所述获取所述Roformer-Sim改进模型的训练语料，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于Infomap图算法将所述文本句向量进行社区网络划分，得到社区网络划分图，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于社区划分策略，按顺序依次将所述第一采样序列中的节点赋给相邻节点所在的各个社区，得到所述社区网络划分图，包括：

7.根据权利要求1所述的方法，其特征在于，在所述基于所述最短平均编码长度将所述社区网络划分图中的文本句向量节点进行

8.一种文本无监督聚类装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种文本无监督聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取文本数据，基于预训练后的roformer-sim改进模型对所述文本数据进行向量化，得到文本句向量的步骤之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在所述获取文本数据，基于预训练后的roformer-sim改进模型对所述文本数据进行向量化，得到文本句向量的步骤之前，所述方法还包括：

4.根据权利要求3所述方法，其特征在于，所述获取所述roformer-sim改进模型的训练语料，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于infomap图算法将所述文本句向量进行社区网络划分，得到社区网络划分图，包括：

6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员：刘纪稳，
申请(专利权)人：杭州有赞科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人