一种通用的文献元数据主题分析方法、系统和设备技术方案

技术编号：40282179 阅读：11 留言：0更新日期：2024-02-07 20:36

本发明专利技术公开了一种通用的文献元数据主题分析方法、系统和设备，对多种关键词提取算法的抽取结果进行抽样人工评估，选取稳定可靠且大范围适用的算法，从文献的文本数据中提取重要关键词；得到每篇文献的关键词集合后，将从全局的角度先分析过滤一批不重要或噪声关键词；在得到待分析数据集合的关键词集合之后，将以关键词为连接构建三种网络；对关键词嵌入向量表征，基于关键词的嵌入向量表征学习能够同时考虑关键词所在的自然语义环境和所在各类网络中的环境；得到集合了文本语义信息，各类图结构信息的关键词嵌入向量，从而对基于关键词嵌入向量聚类的主题识别；通过人工审核，去除明显的噪声主题或者无意义主题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文献元数据主题分析，具体涉及一种通用的文献元数据主题分析方法、系统和设备。

技术介绍

1、主题发现是一种文本挖掘技术，可以帮助人们从大量的文本数据中自动发现潜在的主题或话题。科学技术的快速发展催生了海量学术文献的发表，并且学术文献的发表仍在快速地增长，因此主题发现技术受到了广泛的关注。

2、主题发现最初被应用于信息检索和文本分类领域，可以帮助搜索引擎更好地理解用户需求，提供更准确的搜索结果。随着主题发现技术的不断发展，它也被应用于许多其它领域，如市场营销、舆情分析、学科发展等。例如，在舆情分析中，主题发现可以帮助政府和企业了解公众对特定事件的看法和态度，从而更好地应对舆情风险；在学科发展中，主题发现可以帮助学校或者研究组了解当前学科在近年来的研究热点与研究趋势，从而更好的调整研究方向。主题发现已成为一种非常有用的文本挖掘技术，具有广泛的应用前景。

3、近年来，主题发现的研究重点从主题模型转向文本嵌入聚类。这两种方法理论繁重，结构复杂且难以实现；对于主题模型(topic model)，它是一种基于统计建模的非监督聚类方法，它通过构建复杂的变量依赖关系和数值分布来模拟观测到的数据的生成过程，并通过基于贝叶斯理论的推理算法从数据中自动反向推断出数值分布的参数，从而学习得到这个主题模型。虽然主题模型在科研和一定产业范围内取得了成功，但它也存在一些问题导致无法大规模应用于产业应用，其中最大的问题有：(1)模型建模必须与推理算法的设计相绑定，使得改进模型会导致推理算法需要重新设计，而其稳定性和优化性能在

4、主题挖掘(topic mining)旨在通过文本嵌入向量聚类(tec)的方式发现主题。近几年，该类方法已成为文本挖掘界的新研究趋势。与传统主题模型相比，tec模型设置更简单、高效，并且通过使用稳定的预训练语言模型(plm)和聚类算法，使得tec模型在主题发现性能方面拥有很强的竞争力。到目前为止，该领域已经提出了各种使用不同文本粒度、聚类算法和主题词识别策略的研究工作。同样，该类方法的不足之处在于只专注于文本信息，而没有考虑到不同实体之间的关联信息对主题挖掘的影响(如作者和文章实体间的著作关系)，因此我们需要提供一种通用的文献元数据主题分析方法、系统和设备。

技术实现思路

1、本专利技术的目的在于提供一种通用的文献元数据主题分析方法、系统和设备，本专利技术给出的主题发现算法可以做到快速，稳定，有效；且在大规模数据上发掘复杂的主题聚类；区别于传统主题模型以词表示主题，本方法使用词组的方式表示主题能揭示更多的主题信息，以解决上述
技术介绍
中提出现有技术中模型建模必须与推理算法的设计相绑定，使得改进模型会导致推理算法需要重新设计，而其稳定性和优化性能在很多时候就得不到保证；涉及主题随时间变化以及主题分层的建模十分复杂，且大部分的这类模型由于模型复杂度等问题无法应用在大数据上。最直接的表现就是运行时间随数据量呈指数增长；主题模型是基于词袋模型(bag-of-words)的假设前提，不考虑词语和文章本身的语义关系和环境，这限制了主题模型从文本中发掘的能力和只专注于文本信息，而没有考虑到不同实体之间的关联信息对主题挖掘的影响的问题。

2、为实现上述目的，本专利技术采用了如下技术方案：一种通用的文献元数据主题分析方法，包括关键词提取，所述关键词提取为对多种关键词提取(keyphrase extraction)算法的抽取结果进行抽样人工评估，选取稳定可靠且大范围适用的算法，从文献的文本数据中提取重要关键词(以英文数据为例，此处抽取的关键词为词组，而非单个词)；

3、得到每篇文献的关键词集合后，将从全局的角度先分析过滤一批不重要或噪声关键词，对核心主题词筛选；

4、在得到待分析数据集合的关键词集合之后，将以关键词为连接构建三种网络，分别为：关键词-关键词共现网络、作者-文章写作网络和作者-作者合作网络；

5、对关键词嵌入向量表征，基于关键词的嵌入向量表征学习能够同时考虑关键词所在的自然语义环境和所在各类网络中的环境；

6、在完成上述关于关键词嵌入向量的表征学习训练后，会得到集合了文本语义信息，各类图结构信息的关键词嵌入向量，从而对基于关键词嵌入向量聚类的主题识别；

7、通过人工审核，去除明显的噪声主题或者无意义主题。

8、优选的，所述核心主题词筛选目的是为了达到过滤噪声关键词，可以使用从整个文本上计算得到的最小词频、tf-idf等指标来进行过滤，具体来说，如果一个关键词的词频或tf-idf值小于设定的最小阈值，就将其过滤掉，最小阈值的设置可以根据经验或观察得到。

9、优选的，所述关键词-关键词共现网络：目的是为了之后进行基于图聚类的主题模型构建，学习和预测。该网络的每个点对应每个关键词，边对应两个关键词之间的共现关系；作者-文章写作网络：该网络为辅助(数据)网络，存储并表示作者与文章之间的写作关系。它是一个二分图/网络，包含两类点，即作者和文章。它们之间的无向边体现了两者的二元关系，即参与写作与否。该网络与关键词之间的关系体现在作者和文章都可由各自包含或涉及的关键词表示；作者-作者合作网络：该网络为辅助(数据)网络，存储并表示作者与作者之间的合作关系。它们之间的无向边可采用简单的二元关系，即合作与否，也可以采用权重赋值，例如合作次数。该图与前两个网络共享一个作者集合，且作者属性也相同。

10、优选的，所述关键词嵌入向量表征基于关键词的嵌入向量表征学习能够同时考虑关键词所在的自然语义环境和所在各类网络中的环境。因此，需要有机结合深度语言模型和深度图神经网络模型的预训练；基于文本语义的关键词嵌入向量表征：通过选取的预训练语言模型，直接生成w在每个包含w的文章d下的局部嵌入向量，之后取平均得到全局上下文的关键词嵌入向量，公式如下所示，其中，代表所有包含关键词的文本集合；

11、

12、优选的，所述基于各类网络的关键词嵌入向量表征：让关键词从其它的结构化数据中学习更多丰富的信息。在关键词所对应的ego网络中，可很方便地使用图卷积神经网络，即gcn(graph convolutional network)，来学习每个节点的嵌入向量，将这些节点的嵌入向量设为由关键词嵌入向量组成，从而最终实现对关键词嵌入向量的学习。任一节点，不论作者、文章、乃至年份，都可由它们包含或直接关联的关键词集合来表征，而它们的初始嵌入向量则可定义为直接关联的关键词的语义嵌入向量的均值。例如，文章在写作网络中作为节点的初始嵌入向量ea为：

13、

14、优选的，所述其中，是文章包本文档来自技高网...

【技术保护点】

1.一种通用的文献元数据主题分析方法，包括关键词提取，其特征在于：所述关键词提取为对多种关键词提取(keyphrase extraction)算法的抽取结果进行抽样人工评估，选取稳定可靠且大范围适用的算法，从文献的文本数据中提取重要关键词(以英文数据为例，此处抽取的关键词为词组，而非单个词)；

2.根据权利要求1所述的一种通用的文献元数据主题分析方法，其特征在于：所述核心主题词筛选目的是为了达到过滤噪声关键词，可以使用从整个文本上计算得到的最小词频、TF-IDF等指标来进行过滤，具体来说，如果一个关键词的词频或TF-IDF值小于设定的最小阈值，就将其过滤掉，最小阈值的设置可以根据经验或观察得到。

4.根据权利要求1所述的一种通用的文献元数据主题分析方法，其特征在于：所述关键词嵌入向量表征基于关键词的嵌入向量表征学习能够同时考虑关键词所在的自然语义环境和所在各类网络中的环境。因此，需要有机结合深度语言模型和深度图神经网络模型的预训练；基于文本语义的关键词嵌入向量表征：通过选取的预训练语言模型，直接生成w在每个包含w的文章d下的局部嵌入向量，之后取平均得到全局上下文的关键词嵌入向量，公式如下所示，其中，代表所有包含关键词的文本集合；

5.根据权利要求4所述的一种通用的文献元数据主题分析方法，其特征在于：所述基于各类网络的关键词嵌入向量表征：让关键词从其它的结构化数据中学习更多丰富的信息。在关键词所对应的Ego网络中，可很方便地使用图卷积神经网络，即GCN(GraphConvolutional Network)，来学习每个节点的嵌入向量，将这些节点的嵌入向量设为由关键词嵌入向量组成，从而最终实现对关键词嵌入向量的学习。任一节点，不论作者、文章、乃至年份，都可由它们包含或直接关联的关键词集合来表征，而它们的初始嵌入向量则可定义为直接关联的关键词的语义嵌入向量的均值。例如，文章在写作网络中作为节点的初始嵌入向量ea为：

6.根据权利要求5所述的一种通用的文献元数据主题分析方法，其特征在于：所述其中，是文章包含的关键词集合。在得到了每篇文章的初始嵌入向量之后，以每个Ego局部网络做为输入单位使用GCN计算得到局部网络中每个节点在经历每个隐层后的嵌入向量。在GCN网络的最后隐层输出之后，将使用对应的输出嵌入向量进行两个联合学习任务：(1)节点属性值预测(Node Attribute Prediction)(2)边预测(Link Prediction)，实现这两个任务的方式是将GCN的输出嵌入向量输入到各自对应的多层感知器中，预测对应的数值。公式如下：Lgraph＝γLnode+(1-γ)Llink；其中，和分别代表了节点属性预测损失和边预测损失，而代表了二者之间的权重。

7.根据权利要求6所述的一种通用的文献元数据主题分析方法，其特征在于：所述基于关键词嵌入向量聚类的主题识别：在完成上述关于关键词嵌入向量的表征学习训练后，会得到集合了文本语义信息，各类图结构信息的关键词嵌入向量。选取合适的聚类算法，将数据分割成不同的簇，计算不同簇关键词与簇中心的相似度，获取top10的关键词代表该簇的主题。

8.一种通用的文献元数据主题系统，包括关键词提取单元、核心主题词筛选单元、各类数据网络构建单元、关键词嵌入向量表征单元、基于关键词嵌入向量聚类的主题识别和人工审核单元，其特征在于：所述各类数据网络构建单元还包括关键词-关键词共现网络模块、作者-文章写作网络模块和作者-作者合作网络模块。

9.根据权利要求8所述的一种通用的文献元数据主题分析系统，其特征在于：所述关键词嵌入向量表征单元包括基于文本语义的关键词嵌入向量表征模块和基于各类网络的关键词嵌入向量表征模块，其中所述基于文本语义的关键词嵌入向量表征模块用于通过选取的预训练语言模型，直接生成w在每个包含w的文章d下的局部嵌...

【技术特征摘要】

2.根据权利要求1所述的一种通用的文献元数据主题分析方法，其特征在于：所述核心主题词筛选目的是为了达到过滤噪声关键词，可以使用从整个文本上计算得到的最小词频、tf-idf等指标来进行过滤，具体来说，如果一个关键词的词频或tf-idf值小于设定的最小阈值，就将其过滤掉，最小阈值的设置可以根据经验或观察得到。

3.根据权利要求1所述的一种通用的文献元数据主题分析方法，其特征在于：所述关键词-关键词共现网络：目的是为了之后进行基于图聚类的主题模型构建，学习和预测。该网络的每个点对应每个关键词，边对应两个关键词之间的共现关系；作者-文章写作网络：该网络为辅助(数据)网络，存储并表示作者与文章之间的写作关系。它是一个二分图/网络，包含两类点，即作者和文章。它们之间的无向边体现了两者的二元关系，即参与写作与否。该网络与关键词之间的关系体现在作者和文章都可由各自包含或涉及的关键词表示；作者-作者合作网络：该网络为辅助(数据)网络，存储并表示作者与作者之间的合作关系。它们之间的无向边可采用简单的二元关系，即合作与否，也可以采用权重赋值，例如合作次数。该图与前两个网络共享一个作者集合，且作者属性也相同。

5.根据权利要求4所述的一种通用的文献元数据主题分析方法，其特征在于：所述基于各类网络的关键词嵌入向量表征：让关键词从其它的结构化数据中学习更多丰富的信息。在关键词所对应的ego网络中，可很方便地使用图卷积神经网络，即gcn(graphconvolutional network)，来学习每个节点的嵌入向量，将这些节点的嵌入向量设为由关键词嵌入向量组成，从而最终实现对关键词嵌入向量的学习。任一节点，不论作者、文章、乃至年份，都可由它们包含或直接关联的关键词集合来表征，而它...

【专利技术属性】
技术研发人员：田阳杰，金源，张鹤，许若华，李沄沨，
申请(专利权)人：中图科信数智技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人