一种基于学术网络的团队构建方法技术

技术编号:20160516 阅读:20 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于学术网络的团队构建方法,将学者的论文合著行为作为合作行为的具体表现,利用学者间的合作行为建立学术团队构建模型。本发明专利技术首先提出合作距离来更全面的衡量学者间的合作行为,并建立新的合作关系网络。为了丰富网络特征,提升聚类的效果,本发明专利技术将网络映射到测地线空间,结合密度梯度转移和K‑means聚类方法得到最终的团队划分情况。实验结果表明,本发明专利技术提出的模型适合处理复杂的学术网络结构,相比其他的团队识别方法具有更高的准确性和可靠性。本发明专利技术的实验结果也验证了团队科学现象在学术网络中的普遍性,并能够良好地反映网络中学术团队的组成和结构。本发明专利技术提供了学术网络中团队构建的一种新方法。

【技术实现步骤摘要】
一种基于学术网络的团队构建方法
本专利技术涉及学术领域中基于学者的论文合著网络对学者进行学术团队构建的方法,尤其涉及到一种基于测地线空间密度梯度转移与K-means线性聚类相结合对学者进行团队划分的方法。
技术介绍
在当今科学研究日益多样化的时代,不同学科研究人员和不同研究团体之间的合理化协作,有利于丰富知识背景,提高研究的效率,从而完成高质量的任务。对学术团队的构建与识别的研究能够发现各学科人才之间的合作形势,促进学科的交叉和知识的传播;也可以为研究人员提供一种合理的合作模式建议来提高他们的能力和知识的质量。学者的合著关系及其引用关系构成了巨大的网络,学术数据的膨胀使得现有的社团识别方法,如GN,Louvain等算法很难解决学术网络中的团队构建问题。因此需要研究人员提出一种能够准确度,实用性更高的团队构建方法。
技术实现思路
本专利技术的目的主要针对现有研究的准确性低、可靠性差的不足,并结合学者合作的特点提出基于学术网络的团队构建方法,通过提出合作距离的概念来衡量学者间的合作紧密程度,并将合作距离作为团队之间划分的关键。同时,为了丰富网络特征,利用节点之间距离将合作网络映射到测地线空间,利用节点对于测地线空间的密度影响,迭代估算出节点漂移的方向和最终位置,并结合K-means算法估算出学术网络中的团队数目。本专利技术首次使用测地线空间密度转移与K-means聚类相结合的方法为学术团队构建问题提供了一种新方法。本专利技术的技术方案:一种基于学术网络的团队构建方法,步骤如下:步骤1)通过统计真实的论文发表情况计算合作窗口年限以合著关系为基础进行团队构建,将学者的论文合著行为作为合作关系的具体体现,通过统计分析学者之间的合作情况,选择挖掘学术团队的窗口年限;较长窗口年限的合作能够更准确的识别学者的团队情况,然而随着学术数据的膨胀,窗口年限较长会使计算复杂度成指数型的增长。因此,通过统计学者间合作消失到下次再合作的年份间隔,根据大量学者的在合作年份间隔分布情况,确定目标窗口年限为5年;步骤2)利用步骤1)中得到的合作窗口年限中的论文相关数据计算学者之间的合作距离,建立新的合作网络模型,并将网络映射到测地线空间;包括以下两个步骤:2.1)对学者的合作关系建模,只考虑学者间合作次数或频率,来衡量学者之间合作关系的强弱比较片面,综合考虑学者间的合作次数和发表论文频率,提出合作距离;合作距离定义如下:两名学者分别在5年内发表的论文的数量的乘积减去两名学者5年内合作论文数量的平方除以这两名学者分别在5年内发表的论文的数量的乘积,计算公式为:其中,Pi和Pj分别表示学者i,j在5年内发表的论文,|P|表示学者5年发表的论文数目;2.2)将学者作为网络中的节点,学者间的合作关系作为边,步骤2.1)得到的学者之间的合作距离作为网络中节点之间边的权重建立新的合作网络模型;根据学术网络连通性强的特点,i节点的测地线空间向量pi表示节点i和网络中其他节点距离的集合,其中网络中两点之间的距离dis(i,j)为i,j两点间最短路径的权重和;利用测地线空间向量将网络映射到n维测地线空间中,n为网络中节点数目;网络中的测地线空间距离表示为:pi和pj分别表示节点i和j的测地线空间向量,Λ是一个n×n的对角型系数矩阵,用来根据网络维数对测地线空间距离进行调整;根据欧几里得距离的计算公式,其中k≠{i,j},n为网络中的节点数目;步骤3)计算步骤2)中测地线空间中由每个节点产生的密度场分布,并根据密度梯度变化对节点转移;3.1)利用步骤2)中的公式计算节点的测地线空间向量,网络中节点会被映射到测地线空间中,在测地线空间中每个节点产生一个连续不断的密度场,设节点j产生的这个密度场服从期望为μj,标准方差为的高斯分布,则节点j对测地线空间中任一点x∈Rn产生的密度分布为:其中,ε是标准化参数,px表示节点x的测地线空间向量;随着网络中测地线空间距离di,j的增加,密度分布将会呈现指数型的下降;3.2)因为节点在测地线空间产生密度场的行为是相互独立的,所以任意一点x∈Rn的密度都是由网络中所有其他节点形成的密度场叠加,则形成最终的密度分布如下所示:其中,Λ是一个n×n的对角型系数矩阵,K(·)是一个有界的非负函数,px是节点x的测地线空间向量,bw是标准差;网络中属于同一群体的节点在测地线空间中形成团队,密度将沿着边界向团队中心的方向增加,所以节点沿着正密度梯度变化的方向漂移,会形成多个局部最大密度区域,从而获得网络中的团队划分情况。因此,本专利技术对于密度分布函数求导寻找正密度梯度增加最快的方向,并令导数▽f(px)=0计算出节点漂移方向。将距离函数和密度场分布函数代入导数计算公式,解得节点的移动位置为:对网络中的每个节点反复迭代,每次迭代中每个节点的漂移一次。直到新旧节点位置之间的范数距离l1小于一个阈值,范数距离为当节点漂移距离小于这个阈值,表明节点位置不再发生变化;步骤4)使用线性聚类估算转移后测地线空间中的局部最大密度区域,并对K-means聚类函数进行平滑处理计算出学术网络中团队数目得到最终的学术团队模型;4.1)为了估算局部最大密度区域边界,本算法对节点运动轨迹终点进行线性聚类;因为一个轨迹和他最近邻居节点的轨迹之间的距离在轨迹终点(节点停止位置)处最小,具体证明如下:设有两个轨迹,分别以{pb,qb}∈Rn作为轨迹终点,{pa,qa}∈Rn是轨迹终点的前一个点。假设在节点漂移时两个节点沿着相同的直线作同样的漂移,在t次迭代后,这些直线上的每个点的参数形式为:pt=pb+t(pb-pa)qt=qb+t(qb-qa)在t次迭代后,两条线之间的距离为dt=pt-qt=ΔB-T(ΔB-ΔA),其中ΔA=pA-qA,ΔB=pB-qB;利用距离平方距离函数的导数得到误差函数最小的t0的值:如果两条轨迹的轨迹终点距离非常近,那么ΔB≈0,则t0=0,意味着这两个轨迹终点即是最近点;所以可以直接对轨迹终点进行线性聚类,为节点分配不同的团队标签;4.2)因为K-means聚类方法需输入初始k值(划分的簇的数目),因此对K-means的目标函数进行平滑处理,k簇的目标函数SSE为:其中pji是任一数据点的测地线空间向量,cj表示簇中心的测地线空间向量。可以看出,随着k的增加,当簇的数目等于数据点的数目时,εk将减小,并且最终为零。对目标函数求导:其中,是SSE的导数;通过实验得知,当k从2增加到一个较大的值,SSE导数迅速减小;当k接近网络中的实际簇数时,它开始波动。根据这一特点,本专利技术提出一个方法将目标函数平滑化,即如果当前值大于先前看到的这时用先前看到的最小值替换当前值。当连续多次变化仍保持最小值不变时,就意味着已经得到了合适数量的簇数。得到合适的簇数后即可使用K-means方法对轨迹终点进行聚类,为节点分配团队标签。本专利技术的有益效果:本专利技术仅利用学者间论文合著信息,将测地线空间密度梯度转移方法和K-means聚类方法相结合,突破了传统团队识别在学术网络中学术团队构建问题中的不足,同时引入合作距离的概念更好的衡量学者间的合作状况。实验结果表明本专利技术提出的方法更适合处理复杂的学术网络结构,相比其他的团队识别方法具有更高的准确性和可靠性。本专利技术的实验结果也验证本文档来自技高网...

【技术保护点】
1.一种基于学术网络的团队构建方法,其特征在于,步骤如下:步骤1)通过统计真实的论文发表情况计算合作窗口年限以合著关系为基础进行团队构建,将学者的论文合著行为作为合作关系的具体体现,通过统计分析学者之间的合作情况,确定目标窗口年限为5年;步骤2)利用步骤1)中得到的合作窗口年限中的论文相关数据计算学者之间的合作距离,建立新的合作网络模型,并将网络映射到测地线空间;包括以下两个步骤:2.1)对学者的合作关系建模,只考虑学者间合作次数或频率,来衡量学者之间合作关系的强弱比较片面,综合考虑学者间的合作次数和发表论文频率,提出合作距离;合作距离定义如下:两名学者分别在5年内发表的论文的数量的乘积减去两名学者5年内合作论文数量的平方除以这两名学者分别在5年内发表的论文的数量的乘积,计算公式为:

【技术特征摘要】
1.一种基于学术网络的团队构建方法,其特征在于,步骤如下:步骤1)通过统计真实的论文发表情况计算合作窗口年限以合著关系为基础进行团队构建,将学者的论文合著行为作为合作关系的具体体现,通过统计分析学者之间的合作情况,确定目标窗口年限为5年;步骤2)利用步骤1)中得到的合作窗口年限中的论文相关数据计算学者之间的合作距离,建立新的合作网络模型,并将网络映射到测地线空间;包括以下两个步骤:2.1)对学者的合作关系建模,只考虑学者间合作次数或频率,来衡量学者之间合作关系的强弱比较片面,综合考虑学者间的合作次数和发表论文频率,提出合作距离;合作距离定义如下:两名学者分别在5年内发表的论文的数量的乘积减去两名学者5年内合作论文数量的平方除以这两名学者分别在5年内发表的论文的数量的乘积,计算公式为:其中,Pi和Pj分别表示学者i,j在5年内发表的论文,|P|表示学者5年发表的论文数目;2.2)将学者作为网络中的节点,学者间的合作关系作为边,步骤2.1)得到的学者之间的合作距离作为网络中节点之间边的权重建立新的合作网络模型;根据学术网络连通性强的特点,i节点的测地线空间向量pi表示节点i和网络中其他节点距离的集合,其中网络中两点之间的距离dis(i,j)为i,j两点间最短路径的权重和;利用测地线空间向量将网络映射到n维测地线空间中,n为网络中节点数目;网络中的测地线空间距离表示为:pi和pj分别表示节点i和j的测地线空间向量,Λ是一个n×n的对角型系数矩阵,用来根据网络维数对测地线空间距离进行调整;根据欧几里得距离的计算公式,其中k≠{i,j},n为网络中的节点数目;步骤3)计算步骤2)中测地线空间中由每个节点产生的密度场分布,并根据密度梯度变化对节点转移;3.1)利用步骤2)中的公式计算节点的测地线空间向量,网络中节点会被映射到测地线空间中,在测地线空间中每个节点产生一个连续不断的密度场,设节点j产生的这个密度场服从期望为μj,标准方差为的高斯分布,则节点j对测地线空间中任一点x∈Rn产生的密度分布为:其中,ε是标准化参数,px表示节点x的测地线空间向量;随着网络中测地线空间距离di,j的增加,密度分布将会呈现指数型的下降;3.2)因为节点在测地线空间产生密度场的行为是相互独立的,所以任意一点x∈Rn的密度都是由网络中所有其他节点形成的密度场叠加,则形成最终的密度分布如下所示:其中,Λ是一个n×n的对角型系数矩阵,K(·)是一个有界的非负函数,px是节点x的...

【专利技术属性】
技术研发人员:宁兆龙张凯源孔祥杰夏锋
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1