文本聚类方法技术

技术编号：39719038 阅读：10 留言：0更新日期：2023-12-17 23:25

本发明专利技术提供一种文本聚类方法

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法、装置及电子设备

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文本聚类方法
、
装置及电子设备
。

技术介绍

[0002]文本聚类主要依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小
。
作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力
。
[0003]随着互联网进程高速发展，海量的文本信息呈现爆炸式增长，网络已然变成一个杂乱无序的桌面图书馆
。
如何对海量的文本实现文本的自动分类就显得尤为重要，在查找文本时不仅能够实现文本的精确定位，更能节省文本的查找时间
。
[0004]传统的文本聚类算法都是单独根据文本的文本相似度
、
语义相似度来进行聚类，可能会存在将同一类别的文本分配至不同类别中，使得对文本进行聚类的过程中准确率不高
。

技术实现思路

[0005]本专利技术实施例提供一种文本聚类方法
、
装置及电子设备，用以解决现有技术中对文本进行聚类的过程中准确率不高的技术问题
。
[0006]第一方面，本申请实施例提供一种文本聚类方法，包括：
[0007]基于第一文本获取第一分词结果，并基于第二文本获取第二分词结果；
[0008]基于所述第一分词结果和所述第二分词结果，确定文本相似度矩阵和文本差异化矩阵，所述文本差异化矩...

【技术保护点】

【技术特征摘要】
1.
一种文本聚类方法，其特征在于，包括：基于第一文本获取第一分词结果，并基于第二文本获取第二分词结果；基于所述第一分词结果和所述第二分词结果，确定文本相似度矩阵和文本差异化矩阵，所述文本差异化矩阵是根据所述第一文本和所述第二文本之间的编辑距离确定的；根据所述文本相似度矩阵和所述文本差异化矩阵，对所述第一文本和所述第二文本进行聚类处理
。2.
根据权利要求1所述的文本聚类方法，其特征在于，所述基于所述第一分词结果和所述第二分词结果，确定文本差异化矩阵，包括：基于所述第一分词结果和所述第二分词结果，确定所述第一文本和所述第二文本之间的编辑距离，并计算所述第一文本和所述第二文本之间字符串的最大长度；基于所述编辑距离和所述字符串的最大长度，确定所述文本差异化矩阵
。3.
根据权利要求1所述的文本聚类方法，其特征在于，所述基于所述第一分词结果和所述第二分词结果，确定文本相似度矩阵，包括：基于所述第一分词结果和所述第二分词结果，确定第一文本的文本向量和第二文本的文本向量；根据所述第一文本的文本向量和所述第二文本的文本向量，构建待聚类文本的文本向量矩阵；所述待聚类文本包括所述第一文本和所述第二文本；基于所述待聚类文本的文本向量矩阵，计算得到所述第一文本和所述第二文本之间的文本相似度矩阵
。4.
根据权利要求3所述的文本聚类方法，其特征在于，所述基于所述第一分词结果和所述第二分词结果，确定第一文本的文本向量和第二文本的文本向量，包括：基于所述第一分词结果和所述第二分词结果，确定第一文本的词集合和第二文本的词集合；将所述第一文本的词集合和所述第二文本的词集合分别输入到词向量模型中，获取所述词向量模型输出的第一文本中全部词的词向量和第二文本中全部词的词向量；根据所述第一文本中全部词的词向量和所述第二文本中全部词的词向量，计算得到所述第一文本的文本向量和所述第二文本的文本向量
。5.
根据权利要求4所述的文本聚类方法，其特征在于...

【专利技术属性】
技术研发人员：万飞，
申请(专利权)人：传神语联网网络科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人