【技术实现步骤摘要】
本专利技术涉及人工智能,特别是涉及一种语义增强的主题聚类数据分析方法。
技术介绍
1、随着文本数据量的快速增长,人工分析文本主题变得愈发困难。为自动化揭示文本中的潜在主题,研究人员提出了主题模型,这是一种强大的无监督主题分析工具。主题模型通过分析文本信息,从大量文本集合中自动化发现不同的主题。每个主题代表一个可解释的语义概念,并由一组主题描述符进行表征。由于其高效性和可解释性,主题模型在诸多领域得到了广泛的应用,如文档检索、内容推荐、观点和事件挖掘、趋势分析等。目前流行的主题模型可以分为三类:传统的代数与概率模型、结合神经网络结构的神经主题模型(neural topic models,ntms)和聚类主题模型。
2、但是,代表的传统主题模型大多依赖词袋模型实现,将词语视为独立的特征,而忽略了文本蕴含的复杂语义关系,导致主题提取效果不佳。聚类主题模型,虽然在词级别上对预训练的词向量进行聚类,并结合词频特征重排词权重并选取主题描述符,但这样得到的主题质量很大程度上依赖于词频特征,几乎达不到最基础的lda的性能。因此,设计一种语义
...【技术保护点】
1.一种语义增强的主题聚类数据分析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的语义增强的主题聚类数据分析方法,其特征在于,构建聚类主题模型的具体步骤包括:文档嵌入、特征降维和聚类分析。
3.根据权利要求2所述的语义增强的主题聚类数据分析方法,其特征在于,所述文档嵌入采用SBERT框架;所述SBERT框架用于生成句子嵌入;所述句子嵌入用于计算句子相似度和进行信息检索。
4.根据权利要求2所述的语义增强的主题聚类数据分析方法,其特征在于,所述特征降维采用PCA算法、t-SNE算法或UMAP算法;所述特征降维用于将高维数据降
...【技术特征摘要】
1.一种语义增强的主题聚类数据分析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的语义增强的主题聚类数据分析方法,其特征在于,构建聚类主题模型的具体步骤包括:文档嵌入、特征降维和聚类分析。
3.根据权利要求2所述的语义增强的主题聚类数据分析方法,其特征在于,所述文档嵌入采用sbert框架;所述sbert框架用于生成句子嵌入;所述句子嵌入用于计算句子相似度和进行信息检索。
4.根据权利要求2所述的语义增强的主题聚类数据分析方法,其特征在于,所述特征降维采用pca算法、t-sne算法或umap算法;所述特征降维用于将高维数据降为低维数据。
5.根据权利要求2所述的语义增强的主题聚类数据分析方法,其特征在于,所述聚类分析采用hdbscan算法或k-means算法。
6.根据权利要求1所述的语义增强的主题聚类数据分析方法,其特征在于,统计全局词频信息采用tf-idf方法;所述tf-idf方法的计算公式为:其中,t为单词,d为文档,ft,d为单词在文档中出现的次数,∑t'ft',d为文档中所有单词出现的总次数,tf(t,d)为词频矩阵,idf(t,d)为逆文档频率,d为文档集合,n为文档数量,{d∈d|t∈d}为文档集合中包含单词的文档数目。
7.根据权利要求6所述的语义增强的主题聚类数据分析方法,其特征在于,统计簇间词频信息的计...
【专利技术属性】
技术研发人员:彭莉娟,朱文华,康毅龙,陈方,谢史迪,周虹成,丁陈君,
申请(专利权)人:西南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。