【技术实现步骤摘要】
一种文本聚类方法、装置、电子设备及存储介质
本公开实施例涉及计算机
,尤其涉及一种文本聚类方法、装置、电子设备及存储介质。
技术介绍
文本聚类是将相似的文本数据划分到同一聚类,并将不同的文本聚类区分开来,其中,聚类也可以称之为“簇”。聚类方法分为不同的领域,如网络、医学、生物学、计算机视觉、自然语言等。现有的文本聚类方法,将文本表示为特征向量,然后通过计算文本对应的特征向量、计算文本之间的相似度;最后,根据文本之间的相似度将文本进行聚类,可以看出,现有的文本聚类方法,首先需要将文本表示为特征向量,进而才能通过特征向量计算文本之间的相似度,使得文本聚类的计算过程复杂,效率较低。
技术实现思路
本公开实施例提供一种文本聚类方法、装置、电子设备及存储介质,可以有效提高文本聚类的效率和准确性。第一方面,本公开实施例提供了一种文本聚类方法,包括:获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;针对所述目标文本数据集中的每条目标文本数据,计算所述目 ...
【技术保护点】
1.一种文本聚类方法,其特征在于,包括:/n获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;/n针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;/n针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;/n分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。/n
【技术特征摘要】 【专利技术属性】
1.一种文本聚类方法,其特征在于,包括:
获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;
针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;
针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;
分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。
2.根据权利要求1所述的方法,其特征在于,针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,包括:
针对所述目标文本数据集中的每条目标文本数据,分别计算所述目标文本数据中各个词的第一词频-逆文档频率;
分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数。
3.根据权利要求2所述的方法,其特征在于,分别计算所述目标文本数据中各个词的第一词频-逆文档频率,包括:
分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率;
根据所述第一词频和所述第一逆文档频率计算对应词的第一词频-逆文档频率;其中,所述第一词频-逆文档频率为所述第一词频与所述第一逆文档频率的乘积。
4.根据权利要求3所述的方法,其特征在于,分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率,包括:
确定各个词在所述目标文本数据中的出现次数,并将所述出现次数作为对应词的第一词频;
获取与所述字典树对应的参数配置信息;其中,所述参数配置信息包括逆文档频率列表,所述逆文档频率列表中包括所述字典树中所包含的各个词的逆文档频率;
在所述逆文档频率列表中,分别查找与所述目标文本数据中的各个词对应的逆文档频率,作为所述目标文本数据中各个词的第一逆文档频率。
5.根据权利要求4所述的方法,其特征在于,所述参数配置信息还包括分布偏差列表;其中,所述分布偏差列表中包括所述字典树中所包含的各个词的分布偏差;
在分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数之前,还包括:
在所述分布偏差列表中,分别查找与所述目标文本数据中的各个词对应的分布偏差,作为所述目标文本数据中各个词的第一分布偏差;
分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数,包括:
分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算所述目标文本数据中各个词的第一重要性分数;其中,所述第一重要性分数为所述第一词频-逆文档频率与所述第一分布偏差的乘积。
6.根据权利要求1所述的方法,其特征在于,针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列,包括:
针对各个待搜索词序列,在预先构建的字典树中按照从根节点到子节点的顺序,搜索与所述待搜索词序列适配的目标词序列。
7.根据权利要求1所述的方法,其特征在于,在获取待聚类的目标文本数据集之前,还包括:
获取总语料库和目标语料库;其中,所述总语料库包括所述目标语料库,所述目标语料库中包含至少一条样本文本数据;
计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差;
针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,并按照所述第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与所述样本文本数据对应的样本词序列;
基于各个样本词序列构建所述字典树。
8.根据权利要求7所述的方法,其特征在于,针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,包括:
针对所述目标语料库中每条样本文本数据,分别计算所述样本文本数据中各个词的第二词频-逆文档频率;
分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数。
9.根据权利要求8所述的方法,其特征在于,分别计算所述样本文本数据中各个词的第二词频-逆文档频率,包括:
分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率;
技术研发人员:封江涛,陈家泽,周浩,李磊,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。