【技术实现步骤摘要】
本专利技术属于主题挖掘,具体涉及一种基于文本嵌入向量聚类的多层次科研主题挖掘方法。
技术介绍
1、由于神经语言模型和语义嵌入技术的大规模普及,各类针对不同粒度级别(如词、句子和文章)的上下文文本嵌入聚类(tec)方法已经在主题挖掘领域取得了一定的成功。经研究表明,通过tec方法挖掘出的每个主题下的代表性主题词展现了良好的一致性。其一致性的程度达到甚至部分超越了现有基于统计建模或神经网络的主题模型方法。在这些方法中,si a et a l.(2020)对词汇表中每个关键词进行了全局性嵌入并对嵌入结果进行聚类。这些嵌入向量是通过(预)训练自然语言模型(如word2vec和bert)的方式得到。对于聚类得到的每个主题簇,研究采用基于tf-idf的加权重排方式获得了它们的代表主题词。mimno et a l.(2020)则考虑了语料库中每个关键词在文本集合中存在的实例和它们各自的语义嵌入向量进行聚类。另一方面,grootendorst(2020)提出对从预训练bert模型中计算得到的文章嵌入向量进行聚类得到文章簇,并使用针对各个簇的tf-idf
...【技术保护点】
1.一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,包括:
2.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到关键词语义簇,包括:
3.根据权利要求2所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述造文章分布向量,包括:
4.根据权利要求3所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到文章簇,包括:将X-Means聚类算法应用在文章的稀疏分布向量上,得到不同的文章簇。
5.根据权利要求1所述的一种基于文
...【技术特征摘要】
1.一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,包括:
2.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到关键词语义簇,包括:
3.根据权利要求2所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述造文章分布向量,包括:
4.根据权利要求3所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述聚类得到文章簇,包括:将x-means聚类算法应用在文章的稀疏分布向量上,得到不同的文章簇。
5.根据权利要求1所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在于,所述构建文章簇索引集树,包括:
6.根据权利要求5所述的一种基于文本嵌入向量聚类的多层次科研主题挖掘方法,其特征在...
【专利技术属性】
技术研发人员:金源,田阳杰,张鹤,李沄沨,许若华,李宁,
申请(专利权)人:中图科信数智技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。