【技术实现步骤摘要】
专家学科体系自动分类方法、系统及终端
[0001]本专利技术涉及学科体系研究领域,特别是涉及一种专家学科体系自动分类方法、系统及终端。
技术介绍
[0002]现阶段对于了解专家的研究方向具有一定的知识和领域门槛,即使拥有国家自然科学基金委员会(NSFC)这样成熟的学科体系,也很难将海量的专家划分到对应的研究领域。现有的分类方式大多采用人工判断的方式,不仅人工成本高并且分类准确度不能保证,大大降低了分类效率。
技术实现思路
[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种专家学科体系自动分类方法、系统及终端,用于解决用于解决现有技术中以上技术问题。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种专家学科体系自动分类方法,所述方法包括:获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集;基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关 ...
【技术保护点】
【技术特征摘要】
1.一种专家学科体系自动分类方法,其特征在于,所述方法包括:获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集;基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集;计算对应各学科体系的NSFC学科体系词与所述最终关键词集中各关键词的相似度,并基于计算获得的相似度确定所述目标专家对象所划分的学科体系。2.根据权利要求1中所述的专家学科体系自动分类方法,其特征在于,所述获取目标专家对象的专家信息,并基于该专家信息获得该目标专家对象的相关论文数据,以形成对应的引导关键词集以及论文关键词集包括:利用爬虫获取目标专家对象的专家信息;其中,所述专家信息包括:专家姓名信息、专家所属机构信息和专家研究方向信息;基于所述专家姓名信息以及专家所属机构信息获取对应的相关论文数据;其中,所述相关论文数据包括:论文标题数据、论文摘要数据和论文关键词数据;基于所述相关论文数据生成引导关键词集以及论文关键词集;其方法包括:对所述专家研究方向信息进行分词,以生成所述引导关键词集;对所述论文关键词数据中的关键词进行去重合并,以生成所述论文关键词集。3.根据权利要求1中所述的专家学科体系自动分类方法,其特征在于,所述基于计算获得的所述引导关键词集以及论文关键词集的词向量之间的词向量相似度,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:基于根据所述论文摘要数据的分词数据训练的词向量,获得所述引导关键词集以及论文关键词集的词向量;基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K
‑
means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集。4.根据权利要求3中所述的专家学科体系自动分类方法,其特征在于,所述根据所述论文摘要数据的分词数据训练词向量的方式包括:利用python的jieba分词库,以论文关键词集和各NSFC学科体系词作为分词词典,对论文摘要文本数据进行分词,以获得分词数据;基于word2vec模块,利用所述分词数据训练词向量。5.根据权利要求3中所述的专家学科体系自动分类方法,其特征在于,所述基于计算所述引导关键词集以及论文关键词集中的各关键词之间的词向量相似度以及对论文关键词集的词向量K
‑
means聚类,从论文关键词集中选择一或多个关键词对所述引导关键词集扩充,以获得最终关键词集包括:计算所述引导关键词集以及论文关...
【专利技术属性】
技术研发人员:樊宇航,张嘉锐,孙沛基,朱悦,李敏,
申请(专利权)人:上海科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。