科研社群划分及核心学者发现方法、系统、介质及终端技术方案

技术编号:23085007 阅读:19 留言:0更新日期:2020-01-11 01:08
本发明专利技术提供一种科研社群划分及核心学者发现方法、系统、介质及终端。所述方法包括以下步骤:获取学者信息;构建学者网络图谱;从学者网络图谱中划分出科研社群;基于科研社群和学者网络图谱,确定核心科研合作团体,发现核心学者。本发明专利技术通过构建用于表征学者之间合作关系的学者网络图谱,并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间合作紧密度,比以往只根据合作次数做为评价标准更加全面合理,且充分考虑时效性;利用数据挖掘算法,能够快速高效划分出科研社群,且能找到核心学者,便于了解国家科研合作特点,找到科研实力强群,有助于未来重大科研课题分配工作和发现科研潜力新星。

Division of scientific research community and discovery methods, systems, media and terminals of core scholars

【技术实现步骤摘要】
科研社群划分及核心学者发现方法、系统、介质及终端
本专利技术属于科研学者分类
,特别是涉及一种科研社群划分及核心学者发现方法、系统、介质及终端。
技术介绍
近几年,国家计划对科研及科研人才重视程度逐步增加,每个重大科研成果背后是诸多科研学者合作的结果,例如论文、专利、著作等文献,在这些文献中记载了有关科研学者的相关信息。随着科学技术的发展和研究逐步深入,难度也逐步加大,完成高水平的科研成果需要科研学者之间的紧密合作,因此,在进行一次高水平科研成果之前,往往需要先建立一个科研团队,如何从科研学者中找到适合该项高水平科研的科研学者,以最大程度满足该项高水平科研的需求,成为目前迫切需要解决的问题。现有技术往往通过查找相关
、研究方向等找到一些科研学者,然后再从这些科研学者中筛选出适合此次科研的学者组成科研团队,这种方式存在查找范围大、建立团队时间长的问题。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种科研社群划分及核心学者发现方法、系统、介质及终端,通过构建用于表征学者之间合作关系的学者网络图谱,并利用数据挖掘算法,能够快速高效地划分出科研社群,且能够找到核心学者,便于了解国家科研合作特点,找到科研实力强群,发现科研潜力新星。为实现上述目的及其他相关目的,本专利技术提供一种科研社群划分及核心学者发现方法,包括以下步骤:获取学者信息;构建学者网络图谱;所述学者网络图谱用于表征学者之间合作关系;划分出科研社群;所述科研社群内部学者关系紧密、科研社群之间关系稀疏;基于所述科研社群和所述学者网络图谱,确定核心科研合作团体,以在所述核心科研合作团体中发现核心学者。于本专利技术的一实施例中,获取所述学者信息包括以下步骤:收集文献源文件,并对所述文献源文件进行解析,以获取解析后的文献数据;基于所述解析后的文献数据,获取所有的学者信息;对所述所有的学者信息进行清洗,以获取所述学者信息。于本专利技术的一实施例中,所述学者信息包括学者姓名、学者所属机构、学者所属部门、学者文章关系和学者合作关系。于本专利技术的一实施例中,构建所述学者网络图谱包括以下步骤:基于所述学者信息,区别同名学者,将不同的学者分别定义为不同的节点;基于所述学者信息,获取两个所述节点之间的合作次数、合作时间和合作文章影响因子,以基于所述合作次数、所述合作时间和所述合作文章影响因子计算两个所述节点之间关系边的权重值;将所有与所述节点相连的关系边的权重值相加,以获得用于衡量所述节点重要度的点权值;基于所述点权值、所述节点和所述关系边的权重值构建所述学者网络图谱。于本专利技术的一实施例中,所述关系边的权重值的计算公式为:其中,E表示关系边的权重值;n表示合作次数;s表示合作文章影响因子;x表示当前时间;t表示合作时间。于本专利技术的一实施例中,从所述学者网络图谱中划分出所述科研社群包括以下步骤:定义社群模块度并初始化所述社群模块度为0,所述社群模块度用来作为衡量划分质量的标准;从所述学者网络图谱上选取预设个节点作为初始中心,基于预设个所述节点,构建预设个最短路径值群;分别计算所述学者网络图谱上除预设个所述节点外剩下的每一节点至预设个所述节点的路径长度,以获取剩下的每一所述节点至预设个所述节点的最短路径;所述路径长度为所述关系边的权重值的倒数;将预设个所述节点分别一一划分到预设个所述最短路径值群中,并按照所述最短路径,将剩下的每一所述节点分别划分到对应预设个所述节点的所述最短路径值群中,以获取划分后的最短路径值群,基于所述划分后的最短路径值群,计算所述社群模块度的第一值;分别取预设个所述最短路径值群中所述点权值大的节点作为新的中心,基于预设个作为新的中心的所述点权值最大的节点,重复上述步骤,以获取划分后的最短路径值群,基于所述划分后的最短路径值群,计算所述社群模块度的第二值;将所述第一值与所述第二值进行比较;若所述第一值大于所述第二值,则以所述第一值对应的所述划分后的最短路径值群作为划分出的科研社群;若所述第一值小于所述第二值,则重复上一步,直至所述社群模块度的值最大且不再变化,以所述社群模块度值最大对应的划分后的最短路径值群作为划分出的科研社群。于本专利技术的一实施例中,所述社群模块度的计算公式为:其中,eij表示连接两个科研社群的节点的关系边的权重值在所述关系边的权重值中所占的比例,i节点和j节点分别属于不同的科研社群;定义一个预设维度的对称矩阵e=eij;定义为矩阵中对角线上各元素之和,表示连接一个科研社群内部各节点的关系边的权重值在所有关系边的权重值的数目中所占的比例;定义为矩阵中每行中各个元素之和,表示外部与i个科研社群中的节点相连的关系边权重值在所有关系边权重值中所占的比例;||e2||表示矩阵e2中所有元素之和。本专利技术提供一种科研社群划分及核心学者发现系统,包括:获取模块、构建模块、划分模块和发现模块;所述获取模块用于获取学者信息;所述构建模块用于构建学者网络图谱;所述学者网络图谱用于表征学者之间合作关系;所述划分模块用于从所述学者网络图谱中划分出科研社群;所述科研社群内部学者关系紧密、科研社群之间关系稀疏;所述发现模块用于基于所述科研社群和所述学者网络图谱,确定核心科研合作团体,以在所述核心科研合作团体中发现核心学者。本专利技术提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的科研社群划分及核心学者发现方法。本专利技术提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的科研社群划分及核心学者发现方法。如上所述,本专利技术所述的科研社群划分及核心学者发现方法、系统、介质及终端,具有以下有益效果:(1)通过解析大规模文献构建用于表征学者之间合作关系的学者网络图谱,并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间的合作紧密度,比以往只根据合作次数做为评价标准更加全面合理,且充分考虑时效性。(2)利用数据挖掘算法,能够快速高效划分出社群内部节点关系紧密,社群之间关系稀疏的科研社群,且能够找到核心学者,便于了解国家科研合作特点,找到科研实力强群,有助于未来重大科研课题的分配工作和发现科研潜力新星。附图说明图1显示为本专利技术的科研社群划分及核心学者发现方法于一实施例中的流程图。图2显示为本专利技术的获取学者信息于一实施例中的流程图。图3显示为本专利技术的构建学者网络图谱于一实施例中的流程图。图4显示为本专利技术的从学者网络图谱中划分出科研社群于一实施例中的流程图。图5显示为本专利技术的科研社群划分及核心学者发现系统于一实施例中的结构示意图。元件标号说明51获取模块52构建模块53划分模块54发现模块S1~S4科研社群划分及核心学者发现方法的步骤S11~S13获取学者信息的步骤S21~S24构建学者网络图谱的步骤...

【技术保护点】
1.一种科研社群划分及核心学者发现方法,其特征在于,包括以下步骤:/n获取学者信息;/n构建学者网络图谱;所述学者网络图谱用于表征学者之间合作关系;/n从所述学者网络图谱中划分出科研社群;所述科研社群内部学者关系紧密、科研社群之间关系稀疏;/n基于所述科研社群和所述学者网络图谱,确定核心科研合作团体,以在所述核心科研合作团体中发现核心学者。/n

【技术特征摘要】
1.一种科研社群划分及核心学者发现方法,其特征在于,包括以下步骤:
获取学者信息;
构建学者网络图谱;所述学者网络图谱用于表征学者之间合作关系;
从所述学者网络图谱中划分出科研社群;所述科研社群内部学者关系紧密、科研社群之间关系稀疏;
基于所述科研社群和所述学者网络图谱,确定核心科研合作团体,以在所述核心科研合作团体中发现核心学者。


2.根据权利要求1所述的科研社群划分及核心学者发现方法,其特征在于,获取所述学者信息包括以下步骤:
收集文献源文件,并对所述文献源文件进行解析,以获取解析后的文献数据;
基于所述解析后的文献数据,获取所有的学者信息;
对所述所有的学者信息进行清洗,以获取所述学者信息。


3.根据权利要求1或2所述的科研社群划分及核心学者发现方法,其特征在于,所述学者信息包括学者姓名、学者所属机构、学者所属部门、学者文章关系和学者合作关系。


4.根据权利要求1所述的科研社群划分及核心学者发现方法,其特征在于,构建所述学者网络图谱包括以下步骤:
基于所述学者信息,区别同名学者,将不同的学者分别定义为不同的节点;
基于所述学者信息,获取两个所述节点之间的合作次数、合作时间和合作文章影响因子,以基于所述合作次数、所述合作时间和所述合作文章影响因子计算两个所述节点之间关系边的权重值;
将所有与所述节点相连的关系边的权重值相加,以获得用于衡量所述节点重要度的点权值;
基于所述点权值、所述节点和所述关系边的权重值构建所述学者网络图谱。


5.根据权利要求4所述的科研社群划分及核心学者发现方法,其特征在于,所述关系边的权重值的计算公式为:



其中,E表示关系边的权重值;n表示合作次数;s表示合作文章影响因子;x表示当前时间;t表示合作时间。


6.根据权利要求4所述的科研社群划分及核心学者发现方法,其特征在于,从所述学者网络图谱中划分出所述科研社群包括以下步骤:
定义社群模块度并初始化所述社群模块度为0,所述社群模块度用来作为衡量划分质量的标准;
从所述学者网络图谱上选取预设个节点作为初始中心,基于预设个所述节点,构建预设个最短路径值群;
分别计算所述学者网络图谱上除预设个所述节点外剩下的每一节点至预设个所述节点的路径长度,以获取剩下的每一所述节点至预设个所述节点的最短路径;所述路径长度为所述关系边的权重值的倒数;
将预设个所述节...

【专利技术属性】
技术研发人员:田欣徐旻昕翁泉飞刘振宇胡寅骏
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1