一种基于文本嵌入向量聚类的多层次科研主题挖掘方法技术

技术编号:41489969 阅读:42 留言:0更新日期:2024-05-30 14:36
本发明专利技术属于主题挖掘技术领域,具体涉及一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,本发明专利技术通过输入文章集合,对文章集合进行聚类得到关键词语义簇,基于关键词语义簇构造文章分布向量后聚类得到文章簇,完成文章簇的构建;基于关键词语义簇和文章簇进行构建文章簇索引集树;基于文章簇索引集树构建多层次的主题网络,确定科研主题关系;能够更加有效、高效地完成对多层级主题的构建,并且构建出的多层级主题呈现出更加丰富的网络结构。将文本嵌入聚类(TEC)方法在主题关系挖掘上的应用从单层树状形式扩展到了多层级网络形式。

【技术实现步骤摘要】

本专利技术属于主题挖掘,具体涉及一种基于文本嵌入向量聚类的多层次科研主题挖掘方法


技术介绍

1、由于神经语言模型和语义嵌入技术的大规模普及,各类针对不同粒度级别(如词、句子和文章)的上下文文本嵌入聚类(tec)方法已经在主题挖掘领域取得了一定的成功。经研究表明,通过tec方法挖掘出的每个主题下的代表性主题词展现了良好的一致性。其一致性的程度达到甚至部分超越了现有基于统计建模或神经网络的主题模型方法。在这些方法中,si a et a l.(2020)对词汇表中每个关键词进行了全局性嵌入并对嵌入结果进行聚类。这些嵌入向量是通过(预)训练自然语言模型(如word2vec和bert)的方式得到。对于聚类得到的每个主题簇,研究采用基于tf-idf的加权重排方式获得了它们的代表主题词。mimno et a l.(2020)则考虑了语料库中每个关键词在文本集合中存在的实例和它们各自的语义嵌入向量进行聚类。另一方面,grootendorst(2020)提出对从预训练bert模型中计算得到的文章嵌入向量进行聚类得到文章簇,并使用针对各个簇的tf-idf加权策略获取每个文章本文档来自技高网...

【技术保护点】

1.一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到关键词语义簇,包括:

3.根据权利要求2所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述造文章分布向量,包括:

4.根据权利要求3所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到文章簇,包括:将X-Means聚类算法应用在文章的稀疏分布向量上,得到不同的文章簇。

5.根据权利要求1所述的一种基于文本嵌入向量聚类的多层...

【技术特征摘要】

1.一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到关键词语义簇,包括:

3.根据权利要求2所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述造文章分布向量,包括:

4.根据权利要求3所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到文章簇,包括:将x-means聚类算法应用在文章的稀疏分布向量上,得到不同的文章簇。

5.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述构建文章簇索引集树,包括:

6.根据权利要求5所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在...

【专利技术属性】
技术研发人员:金源田阳杰张鹤李沄沨许若华李宁
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1