【技术实现步骤摘要】
文本聚类方法、装置、终端设备及存储介质
本申请涉及人工智能
,尤其涉及一种文本聚类方法、装置、终端设备及计算机可读存储介质。
技术介绍
文本聚类是自然语言处理领域十分常见的算法模型,目前业界也有了许多成熟的算法,比如生成文本向量之后使用Kmeans、KNN等传统聚类算法,基于文本主题模型LDA算法的聚类,或者基于关键词抽取叠加社区发现算法的聚类。文本聚类算法可以将杂乱的内容聚合到不同的类别中,有利于对文本的使用和理解,广泛应用于内容服务的多种场景。传统的文本聚类方法大多数仅适用于离线挖掘场景,对于线上应用场景,每天都有大量的新文本进来,传统聚类算法往往需要对全量数据进行计算,如果每次都对全量文本进行聚类操作,效率将十分低下。同时传统的文本聚类算法的效果往往很难达到线上应用的要求,一些聚类出来的错误样本也很难控制。
技术实现思路
有鉴于此,本申请实施例提供了一种文本聚类方法、装置、终端设备及计算机可读存储介质,以解决现有技术中线上应用场景的文本聚类效率低的问题。本申请实施例的第一方面提 ...
【技术保护点】
1.一种文本聚类方法,其特征在于,包括:/n从待聚类文本中提取N个关键词;所述N为大于1的整数;/n将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签;/n将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。/n
【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:
从待聚类文本中提取N个关键词;所述N为大于1的整数;
将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签;
将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
2.如权利要求1所述的文本聚类方法,其特征在于,所述从待聚类文本中提取N个关键词,包括:
提取所述待聚类文本的标题以及正文中包含的词组,得到词组合集;
对所述词组合集进行关键词提取,得到所述关键词。
3.如权利要求2所述的文本聚类方法,其特征在于,所述对所述词组合集进行关键词提取,得到所述关键词,包括:
计算所述词组合集中每个所述词组在整个所述词组合集中的权重值;
将所述权重值满足预设条件的词组作为所述关键词。
4.如权利要求1所述的文本聚类方法,其特征在于,所述将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签包括:
将所述待聚类文本输入神经网络进行特征提取,得到特征向量;
查询预设的向量表,分别确定所述待聚类文本对应的各个所述关键词的词向量;
将所述N个关键词的所述词向量与所述特征向量进行合并,得到总特征向量;
将所述总特征向量输入文本分类器,得到分类标签。
5.如权利要求1所述的文本聚类方法,其特征在于,在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之前,还包括:
获取若干历史文本对应的历史关键词构建标签库;
采用文本聚类算...
【专利技术属性】
技术研发人员:郑勇升,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。