一种文本聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：28035577 阅读：32 留言：0更新日期：2021-04-09 23:17

本公开实施例公开了一种文本聚类方法、装置、电子设备及存储介质。所述方法包括：获取待聚类的目标文本数据集；针对目标文本数据集中的每条目标文本数据，计算目标文本数据中各个词的第一重要性分数，并基于第一重要性分数对目标文本数据中的各个词进行排序，生成与目标文本数据对应的待搜索词序列；针对各个待搜索词序列，在预先构建的字典树中搜索与待搜索词序列适配的目标词序列；其中，目标词序列属于待搜索词序列的子序列；分别根据各个目标词序列对对应的目标文本数据进行聚类，得到文本聚类结果。本公开实施例提供的文本聚类方法，简化了文本聚类的过程，大大降低了文本聚类的时间复杂度，有效提高了文本聚类的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本聚类方法、装置、电子设备及存储介质
本公开实施例涉及计算机
，尤其涉及一种文本聚类方法、装置、电子设备及存储介质。
技术介绍
文本聚类是将相似的文本数据划分到同一聚类，并将不同的文本聚类区分开来，其中，聚类也可以称之为“簇”。聚类方法分为不同的领域，如网络、医学、生物学、计算机视觉、自然语言等。现有的文本聚类方法，将文本表示为特征向量，然后通过计算文本对应的特征向量、计算文本之间的相似度；最后，根据文本之间的相似度将文本进行聚类，可以看出，现有的文本聚类方法，首先需要将文本表示为特征向量，进而才能通过特征向量计算文本之间的相似度，使得文本聚类的计算过程复杂，效率较低。
技术实现思路
本公开实施例提供一种文本聚类方法、装置、电子设备及存储介质，可以有效提高文本聚类的效率和准确性。第一方面，本公开实施例提供了一种文本聚类方法，包括：获取待聚类的目标文本数据集；其中，所述目标文本数据集中包括至少一条目标文本数据；针对所述目标文本数据集中的每条目标文本数据，计算所述目...

【技术保护点】
1.一种文本聚类方法，其特征在于，包括：/n获取待聚类的目标文本数据集；其中，所述目标文本数据集中包括至少一条目标文本数据；/n针对所述目标文本数据集中的每条目标文本数据，计算所述目标文本数据中各个词的第一重要性分数，并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序，生成与所述目标文本数据对应的待搜索词序列；/n针对各个待搜索词序列，在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列；其中，所述目标词序列属于所述待搜索词序列的子序列；/n分别根据各个所述目标词序列对对应的目标文本数据进行聚类，得到文本聚类结果。/n

【技术特征摘要】
1.一种文本聚类方法，其特征在于，包括：
获取待聚类的目标文本数据集；其中，所述目标文本数据集中包括至少一条目标文本数据；
针对所述目标文本数据集中的每条目标文本数据，计算所述目标文本数据中各个词的第一重要性分数，并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序，生成与所述目标文本数据对应的待搜索词序列；
针对各个待搜索词序列，在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列；其中，所述目标词序列属于所述待搜索词序列的子序列；
分别根据各个所述目标词序列对对应的目标文本数据进行聚类，得到文本聚类结果。

2.根据权利要求1所述的方法，其特征在于，针对所述目标文本数据集中的每条目标文本数据，计算所述目标文本数据中各个词的第一重要性分数，包括：
针对所述目标文本数据集中的每条目标文本数据，分别计算所述目标文本数据中各个词的第一词频-逆文档频率；
分别根据各个第一词频-逆文档频率，计算所述目标文本数据中各个词的第一重要性分数。

3.根据权利要求2所述的方法，其特征在于，分别计算所述目标文本数据中各个词的第一词频-逆文档频率，包括：
分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率；
根据所述第一词频和所述第一逆文档频率计算对应词的第一词频-逆文档频率；其中，所述第一词频-逆文档频率为所述第一词频与所述第一逆文档频率的乘积。

4.根据权利要求3所述的方法，其特征在于，分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率，包括：
确定各个词在所述目标文本数据中的出现次数，并将所述出现次数作为对应词的第一词频；
获取与所述字典树对应的参数配置信息；其中，所述参数配置信息包括逆文档频率列表，所述逆文档频率列表中包括所述字典树中所包含的各个词的逆文档频率；
在所述逆文档频率列表中，分别查找与所述目标文本数据中的各个词对应的逆文档频率，作为所述目标文本数据中各个词的第一逆文档频率。

5.根据权利要求4所述的方法，其特征在于，所述参数配置信息还包括分布偏差列表；其中，所述分布偏差列表中包括所述字典树中所包含的各个词的分布偏差；
在分别根据各个第一词频-逆文档频率，计算所述目标文本数据中各个词的第一重要性分数之前，还包括：
在所述分布偏差列表中，分别查找与所述目标文本数据中的各个词对应的分布偏差，作为所述目标文本数据中各个词的第一分布偏差；
分别根据各个第一词频-逆文档频率，计算所述目标文本数据中各个词的第一重要性分数，包括：
分别根据各个第一词频-逆文档频率及对应的第一分布偏差，计算所述目标文本数据中各个词的第一重要性分数；其中，所述第一重要性分数为所述第一词频-逆文档频率与所述第一分布偏差的乘积。

6.根据权利要求1所述的方法，其特征在于，针对各个待搜索词序列，在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列，包括：
针对各个待搜索词序列，在预先构建的字典树中按照从根节点到子节点的顺序，搜索与所述待搜索词序列适配的目标词序列。

7.根据权利要求1所述的方法，其特征在于，在获取待聚类的目标文本数据集之前，还包括：
获取总语料库和目标语料库；其中，所述总语料库包括所述目标语料库，所述目标语料库中包含至少一条样本文本数据；
计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差；
针对所述目标语料库中每条样本文本数据，分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数，并按照所述第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序，生成与所述样本文本数据对应的样本词序列；
基于各个样本词序列构建所述字典树。

8.根据权利要求7所述的方法，其特征在于，针对所述目标语料库中每条样本文本数据，分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数，包括：
针对所述目标语料库中每条样本文本数据，分别计算所述样本文本数据中各个词的第二词频-逆文档频率；
分别根据各个第二词频-逆文档频率及对应的第二分布偏差，计算所述样本文本数据中各个词的第二重要性分数。

9.根据权利要求8所述的方法，其特征在于，分别计算所述样本文本数据中各个词的第二词频-逆文档频率，包括：
分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率；

【专利技术属性】
技术研发人员：封江涛，陈家泽，周浩，李磊，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人