专家学科体系自动分类方法、系统及终端技术方案

技术编号:37152065 阅读:23 留言:0更新日期:2023-04-06 22:09
本发明专利技术的专家学科体系自动分类方法、系统及终端,通过根据获取的目标专家对象的专家信息获得该目标专家对象的相关论文数据,并形成对应的引导关键词集以及论文关键词集,再通过计算所述引导关键词集以及论文关键词集之间的词向量相似度获得最终关键词集,并计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度确定所述目标专家对象所划分的学科体系。本发明专利技术相较于人工判断,该分类流程更有效率,也更加精准。并且易于实现,成本较低,可针对不同的专家,获取对应的不同的专家信息和论文信息进行分类,同时通过对关键词的合理选择,确保分类的效率。确保分类的效率。确保分类的效率。

【技术实现步骤摘要】
专家学科体系自动分类方法、系统及终端


[0001]本专利技术涉及学科体系研究领域,特别是涉及一种专家学科体系自动分类方法、系统及终端。

技术介绍

[0002]现阶段对于了解专家的研究方向具有一定的知识和领域门槛,即使拥有国家自然科学基金委员会(NSFC)这样成熟的学科体系,也很难将海量的专家划分到对应的研究领域。现有的分类方式大多采用人工判断的方式,不仅人工成本高并且分类准确度不能保证,大大降低了分类效率。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种专家学科体系自动分类方法、系统及终端,用于解决用于解决现有技术中以上技术问题。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种专家学科体系自动分类方法,所述方法包括:获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集;基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集;计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度,并基于计算获得的相似度确定所述目标专家对象所划分的学科体系。
[0005]于本专利技术的一实施例中,所述获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集包括:利用爬虫获取目标专家对象的专家信息;其中,所述专家信息包括:专家姓名信息、专家所属机构信息和专家研究方向信息;基于所述专家姓名信息以及专家所属机构信息获取对应的相关论文数据;其中,所述相关论文数据包括:论文标题数据、论文摘要数据和论文关键词数据;基于所述相关论文数据生成引导关键词集以及论文关键词集;其方法包括:对所述专家研究方向信息进行分词,以生成所述引导关键词集;对所述论文关键词数据中的关键词进行去重合并,以生成所述论文关键词集。
[0006]于本专利技术的一实施例中,所述基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:基于根据所述论文摘要数据的分词数据训练的词向量,获得所述引导关键词集以及论文关键词集的词向量;基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K

means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集。
[0007]于本专利技术的一实施例中,所述根据所述论文摘要数据的分词数据训练词向量的方
式包括:利用python的jieba分词库,以论文关键词集和各NSFC学科体系词作为分词词典,对论文摘要文本数据进行分词,以获得分词数据;基于word2vec模块,利用所述分词数据训练词向量。
[0008]于本专利技术的一实施例中,所述基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K

means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度;基于计算获得的词向量相似度从论文关键词集中选择一或多个关键词加入所述引导关键词集;若当前的引导关键词集的关键词数量未达到标准数量,对论文关键词集中剩下的关键词的词向量进行K

means聚类,从距离聚类中心最近的论文关键词集中选择一或多个关键词加入当前的引导关键词集中,以获得关键词数量达到标准数量的最终关键词集。
[0009]于本专利技术的一实施例中,所述计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度,并基于计算获得的相似度确定所述目标专家对象所划分的学科体系包括:计算各NSFC学科体系词与所述最终关键词集中各关键词之间的编辑距离;基于设定的距离阈值,基于各编辑距离确定所述目标专家对象所划分的学科体系。
[0010]于本专利技术的一实施例中,所述基于设定的距离阈值,基于各编辑距离确定所述目标专家对象所划分的学科体系包括:若所述最终关键词集中存在关键词与NSFC学科体系词的编辑距离大于所述距离阈值,则将所述目标专家对象划分到该NSFC学科体系词所对应的学科体系中;若所述最终关键词集中不存在关键词与NSFC学科体系词的编辑距离大于所述距离阈值,则计算所述最终关键词集中各关键词分别与各NSFC学科体系词的词向量相似度总和,将所述目标专家对象划分到最高的相似度所对应的各NSFC学科体系词的学科体系中。
[0011]于本专利技术的一实施例中,所述NSFC学科体系词的类型包括:多级学科体系分别所对应的NSFC学科体系词,用于对所述目标专家对象进行各级学科体系的划分。
[0012]为实现上述目的及其他相关目的,本专利技术提供一种专家学科体系自动分类系统,所述系统包括:信息获取模块,用于获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集;关键词集生成模块,连接所述信息获取模块,用于基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集;自动分类模块,连接所述关键词集生成模块,用于计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度,并基于计算获得的相似度确定所述目标专家对象所划分的学科体系。
[0013]为实现上述目的及其他相关目的,本专利技术提供一种专家学科体系自动分类终端,包括:一或多个存储器及一或多个处理器;所述一或多个存储器,用于存储计算机程序;所述一或多个处理器,连接所述存储器,用于运行所述计算机程序以执行所述专家学科体系自动分类方法。
[0014]如上所述,本专利技术是一种专家学科体系自动分类方法、系统及终端,具有以下有益效果:本专利技术通过根据获取的目标专家对象的专家信息获得该目标专家对象的相关论文数据,并形成对应的引导关键词集以及论文关键词集,再通过计算所述引导关键词集以及论
文关键词集之间的词向量相似度获得最终关键词集,并计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度确定所述目标专家对象所划分的学科体系。本专利技术相较于人工判断,该分类流程更有效率,也更加精准。并且易于实现,成本较低,可针对不同的专家,获取对应的不同的专家信息和论文信息进行分类,同时通过对关键词的合理选择,确保分类的效率。
附图说明
[0015]图1显示为本专利技术一实施例中的专家学科体系自动分类方法的流程示意图。
[0016]图2显示为本专利技术一实施例中的专家学科体系自动分类方法的流程示意图。
[0017]图3显示为本专利技术一实施例中的专家学科体系自动分类方法的流程示意图。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专家学科体系自动分类方法,其特征在于,所述方法包括:获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集;基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集;计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度,并基于计算获得的相似度确定所述目标专家对象所划分的学科体系。2.根据权利要求1中所述的专家学科体系自动分类方法,其特征在于,所述获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集包括:利用爬虫获取目标专家对象的专家信息;其中,所述专家信息包括:专家姓名信息、专家所属机构信息和专家研究方向信息;基于所述专家姓名信息以及专家所属机构信息获取对应的相关论文数据;其中,所述相关论文数据包括:论文标题数据、论文摘要数据和论文关键词数据;基于所述相关论文数据生成引导关键词集以及论文关键词集;其方法包括:对所述专家研究方向信息进行分词,以生成所述引导关键词集;对所述论文关键词数据中的关键词进行去重合并,以生成所述论文关键词集。3.根据权利要求1中所述的专家学科体系自动分类方法,其特征在于,所述基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:基于根据所述论文摘要数据的分词数据训练的词向量,获得所述引导关键词集以及论文关键词集的词向量;基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K

means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集。4.根据权利要求3中所述的专家学科体系自动分类方法,其特征在于,所述根据所述论文摘要数据的分词数据训练词向量的方式包括:利用python的jieba分词库,以论文关键词集和各NSFC学科体系词作为分词词典,对论文摘要文本数据进行分词,以获得分词数据;基于word2vec模块,利用所述分词数据训练词向量。5.根据权利要求3中所述的专家学科体系自动分类方法,其特征在于,所述基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K

means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:计算所述引导关键词集以及论文关...

【专利技术属性】
技术研发人员:樊宇航张嘉锐孙沛基朱悦李敏
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1