一种基于学术大数据的学术团队重要成员识别方法技术

技术编号:20916709 阅读:23 留言:0更新日期:2019-04-20 09:43
本发明专利技术公开了一种基于学术大数据的学术团队重要成员识别方法,从度中心性、H因子以及学术年龄的角度识别团队领导者,并首次使用基于PageRank方法的DHRank模型来评估并标记团队关键成员。为了合理地进行团队聚类,本发明专利技术在进行以领导者为中心的基于最短路径的团队聚类后,使用基于团队规模比较和领导者H因子比较的方法来对聚类结果进行了进一步的完善,有助于提高后期使用DHRank模型识别关键成员的结果的准确性。相比其他方法,本发明专利技术提出的方法在发现有影响力学者方面更加准确,并且拥有更低的运算时间复杂度。本发明专利技术提供了学术团队中识别领导者和关键者的一种新方法,为学术网络中的团队科学研究提供了一种新的解决方案。

A Method of Identifying Important Members of Academic Teams Based on Big Academic Data

The invention discloses a method for identifying important members of an academic team based on large academic data, identifying team leaders from the perspectives of degree centrality, H factor and academic age, and using DHRank model based on PageRank method for the first time to evaluate and mark key members of a team. In order to reasonably carry out team clustering, after leader-centered team clustering based on shortest path, the method of team size comparison and leader H factor comparison is used to further improve the clustering results, which is helpful to improve the accuracy of the results of identifying key members using DHRank model in the later stage. Compared with other methods, the method proposed by the present invention is more accurate in finding the influencing mechanics and has lower computational time complexity. The invention provides a new method for identifying leaders and key persons in academic teams, and provides a new solution for team scientific research in academic networks.

【技术实现步骤摘要】
一种基于学术大数据的学术团队重要成员识别方法
本专利技术属于学术网络识别
,涉及一种基于学术大数据的学术团队重要成员识别方法,具体涉及一种度中心性、H因子和学术年龄的多特征领导者节点的识别方法和基于PageRank改进的DHRank算法来进行关键成员识别。
技术介绍
随着当今科学研究的多样化发展,学术团队正在向跨越大学、研究中心甚至研究领域的趋势发展。科研合作的广泛性和复杂性使得学术团队的规模也日益增大,团队成员之间及团队与团队之间的合作关系也愈加复杂。团队重要成员是一个团队的支柱,他们不仅承担着团队内部的规划管理职责,还承担着整个团队对外交流合作的职责。对于团队中重要成员的研究可以更好地反映出团队的合作结构和发展趋势。然而学术网络规模的增长和合作关系的复杂性增加了团队重要成员识别的难度,同时目前多数研究还只着眼于团队以及团队领导的识别,对于团队重要成员识别问题还未得到全面、准确的解决。因此需要研究人员提出一种能够合理准确的学术团队重要成员识别方法来对于学术团队结构和组成关系进行更好的研究。
技术实现思路
本专利技术针对现有研究的一些不足之处,提出了一种利用度中心性、H因子以及学者学术年龄等指标结合DHRank算法来进行团队领导者以及重要成员的识别方法。该方法从宏观网络结构角度、学者的学术影响力以及学者的研究效率角度对团队的领导者进行识别;以团队领导者为中心进行基于最短路径的团队构建,使用基于PageRank算法改进的DHRank算法对团队中的成员进行能力评估,并得出团队中的关键成员用于研究学术团队组成和预测未来的团队领导者。本专利技术为识别学术团队中的具有影响力的领导者节点以及关键成员的问题提供一种新的解决方法。本专利技术的技术方案:一种基于学术大数据的学术团队重要成员识别方法,步骤如下:步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;步骤3):统计学术网络中学者论文发表情况并计算学者的学术年龄,利用学术年龄和步骤2)中所得到的潜在的团队领导者名单确定领导者节点,并利用领导者节点和领导者之间的最短路径将非领导节点划分归属到不同领导者的学术团队;步骤4):根据步骤3)中所得的学术团队,利用DHRank算法对学术团队中的关键成员进行识别和标记,得到学术团队中的重要成员,包括领导者和学术团队关键成员。步骤1)~步骤4)具体如下:步骤1):通过统计分析DBLP数据集中的论文发表情况以及学者的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析。论文合著可以被认为是学者之间合作关系的具体表现,以此为基础的学术网络能够真实的反映出学者的合作情况和团队归属。确定目标年限后,利用目标年限内的学者论文信息建立学术网络。其中,学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目。步骤2)包括以下三个步骤:2.1)计算学者在学术网络中的度中心性,根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性是网络分析中刻画节点重要程度的最直接度量指标,一个节点的度越大表示这个节点的度中心性越高,此节点在网络中就越重要;根据度中心性可以衡量学者在一个学术合作团队中的重要性和影响力,度中心性的计算公式如下:其中,deg(a,G)表示在学术网络G中学者a的全部合著者人数,A表示学术网络中全部的学者数。2.2)计算学者的H因子;H因子又称为H指数,其中的‘H’代表学者的高引用次数,一名学者的H因子是指该学者至多有H篇论文分别被引用了至少H次。H因子能够比较准确地反应一个人的学术成就,学者的H指数越高,表明该学者的论文影响力越大。根据H因子的定义,统计论文发表的真实引用量对学术网络中的学者的H因子进行计算。2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点。步骤3)包括以下两个步骤:3.1)计算学者的学术年龄:根据论文发表情况可以得到学术网络中每位学者学术年龄,即从发表第一篇论文到最后一篇论文的时间跨度。对学者的论文发表行为进行统计,学术年龄小于5的学者通常可以被认为是学生研究人员,这些人并不能被称为真正的团队领导者。在步骤2)得到的潜在的团队领导者名单的基础上,筛选出学术年龄大于等于5的学者并将其标记为领导者节点。3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,具有最短的最短路径距离的领导者节点即为此节点的领导者节点,将此节点划分为对应领导者节点的团队中。进行团队划分后,存在一些节点属于多个团队的情况,因此需进行进一步的团队划分;如果两个团队中存在较多的共同节点,即共同节点个数大于平均团队节点数,则需比较两个团队领导者节点的H因子,具有较高的H因子的领导者节点作为两个团队全部节点的领导者节点。步骤4)包括以下两个步骤:4.1)计算团队中所有成员在学术网络中的度中心性,然后结合步骤2)中所计算得到的H因子计算每个学者的度中心性与H因子之和,对学者的学术影响力进行衡量;4.2)计算团队中所有成员的DHRank值,DHRank的计算方式如下:其中,DHR(ai)表示学者ai的DHRank值,PR(ai)为学者ai的PageRank值,Deg(ai)表示学者ai在学术网络中的度,hindex(ai)为学者ai的H因子值。其中学术网络中学者ai的PageRank值计算方式如下:其中,E表示学术网络中的所有边的集合;(ai,aj)表示学者节点ai和aj之间的连边,PR(aj)表示网络中学者ai的合作学者aj的PageRank值,表示学者节点aj的度。设P=(PR1,PR2,…PRn)T为n维PageRank向量,A为学术网络的对应的转移矩阵,如下所示:其中,A(ai,aj)表示从学者节点ai到学者节点aj的转移概率,表示学者节点ai的度。采用poweriteration方法,指定PageRank值的迭代初始值为1。由于学术网络中的合著关系为双向关系,并且不考虑单作者发表论文的情况,在进行迭代时PageRank最小值设为0。通过多轮迭代求解:Pk=ATPk-1最终收敛于||Pk-Pk-1||<ξ,即两次迭代的差值小于阈值ξ。k表示迭代结束时的迭代次数。在专利技术中,阈值ξ=10-5。得到团队中的每个成员的DHRank值后,将团队成员按照该值进行降序排列,团队成员的关键性与其DHRank值成正比。本专利技术的有益效果:本专利技术利用学者在学术网络中的度中心性、H因子以及学术年龄三个学者特征进行学术团队中的领导者识别,并且使用基于最短路径的方法提出了一种新的团队构建方法。为了更准确、有效的找到团队中的关键成员,本专利技术还提出了基于PageRank改进的DHRank算法来识别团队中的关键成员。实验结果表明,本专利技术提出的方法在发现有影响力学者方面更加准确,并且相比于其他的方法,本专利技术有更低的运算时间复杂度。本专利技术提供了学术团队中识别领导者和关键者的一种新本文档来自技高网...

【技术保护点】
1.一种基于学术大数据的学术团队重要成员识别方法,其特征在于,步骤如下:步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;通过统计分析DBLP数据集中的论文发表情况以及学者间的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析;再利用目标年限内的学者论文信息建立学术网络;学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目;步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者的论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;2.1)计算学者在学术网络中的度中心性;根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性的计算公式如下:

【技术特征摘要】
1.一种基于学术大数据的学术团队重要成员识别方法,其特征在于,步骤如下:步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;通过统计分析DBLP数据集中的论文发表情况以及学者间的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析;再利用目标年限内的学者论文信息建立学术网络;学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目;步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者的论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;2.1)计算学者在学术网络中的度中心性;根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性的计算公式如下:其中,deg(a,G)表示在学术网络G中学者a的全部合著者人数,A表示学术网络中全部的学者数;2.2)计算学者的H因子;一名学者的H因子是指该学者至多有H篇论文分别被引用了至少H次;根据H因子的定义,统计论文发表的真实引用量对学术网络中的学者的H因子进行计算;2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点;步骤3):统计学术网络中学者论文发表情况并计算学者的学术年龄,利用学术年龄和步骤2)中所得到的潜在的团队领导者名单确定领导者节点,并利用领导者节点和领导者之间的最短路径将非领导节点划分归属到不同领导者的学术团队;3.1)计算学者的学术年龄:对学者的论文发表行为进行统计,在步骤2)得到的潜在的团队领导者名单的基础上,筛选出学术年龄大于等于5的学者并将其标记为领导者节点;3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,具有...

【专利技术属性】
技术研发人员:万良田张凯源于硕
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1