一种基于社会网络分析的学术合作可持续性的预测方法技术

技术编号:15704884 阅读:116 留言:0更新日期:2017-06-26 10:14
一种基于社会网络分析的合作可持续性预测方法,分为合作持续时间预测问题和合作持续次数预测问题。统计两个学者第一次合作时各自的个人属性和社会属性,并将所提取的数据输入合作可持续性预测模型,即得到由模型预测的合作可持续性结果。预处理模块将从真实计算机科学领域论文集中提取的原始数据计算和归一化为所需的属性数据。训练模块使用集成树思想和梯度下降理论建立模型,并使用训练集中的数据调整参数,使预测结果更加精准。预测模块使用预测集内的数据和已经调整好参数的模型进行预测。评价模块通过对比实际结果和预测结果,使用“Jackknife”思想对模型的预测结果进行评价,计算出预测模型的整体性能和已经选取的输入因素对模型预测结果的影响程度。

【技术实现步骤摘要】
一种基于社会网络分析的学术合作可持续性的预测方法
本专利技术涉及一种学者间学术合作可持续性的预测方法,尤其涉及一种基于社会网络分析的学术合作可持续性预测方法。
技术介绍
随着科学的快速发展和科技的高速进步,越来越多的学者选择通过合作的方式共同解决复杂的科学难题。学者们可以通过合作互补优缺,提高研究的效率,缩短研究时间,使研究过程更加严谨,最终实现双赢。合作可以帮助学者更加有效地进行科学研究和科研分析。而单枪匹马的研究方式则因为个人主观思想的局限性和高错误率而逐渐被学术研究界摒弃。由于学术合作的日益广泛,人们也开始逐步了解和研究合作机制,发现合作机制中的规律。在学术界,两名学者可能有过不止一次的合作,即合作在学者间关系中具有一定的可持续性。由此,研究两名学者如何从陌生人转变为合作者的合作机制,可以预测两位学者合作的可持续性,为学者推荐更适合的合作伙伴,从而更好地促进学术合作,推动科技的进步。精确预测学术合作的可持续性具有一定的难度。主要有以下三个原因:第一,学术类数据的数据量较为庞大,使得我们难以获得所需的全部数据。第二,合作的持续具有一定的偶然性和不确定性,并且遵循一种长尾式分布规律而非线性回归,而在时间上分布不均匀的预测模型很难建立。第三,影响学术合作可持续性的因素在当前是不确定的,同时影响因素间的相互作用也会对预测结果产生干扰。目前,并没有明确的分析论证证明影响学者间合作可持续性的具体因素有哪些,但是学者间合作的可持续性又存在客观的个体差异。为了具体研究学者间的合作机制,我们提出了预测学术合作可持续性这一问题,并运用集成提升树的思想建立预测模型。在此基础之上,本专利技术提出一种基于社会网络分析的学术合作可持续性预测方法。
技术实现思路
本专利技术的目的是,基于上述问题,我们研究出一种通过人际关系网络及学者个人属性进行合作可持续性预测的方法。具体而言,我们建议从合作的持续时间和合作次数的角度来分析学术合作的可持续性,同时将可能影响合作可持续性的学者的个人属性和网络属性作为影响因素,并在真实客观的学术数据集(DBLP)上进行广泛的实验来证明我们提出方法的有效性。经过充分分析和论证影响学者间合作可持续性的影响因素后,我们提出一种新的模型构建思想,集成提升树思想,并建立预测模型,将其命名为合作可持续性预测模型,用于预测学者学术合作的可持续性问题。一种基于社会网络分析的学术合作可持续性的预测方法,其特征在于:合作可持续性预测方法是基于合作可持续性可在早期预测的事实而设计的。而集成提升树可以用于分类和回归。模型定义两学者合作早期的时间节点为两人第一次合作之时。合作可持续性预测模型通过两个学者合作早期时社会网络的属性预测未来两个人合作的整个阶段的合作时间和合作次数。并以此来评价两学者的合作可持续性。本专利技术的技术方案:一种基于社会网络分析的学术合作可持续性的预测方法,步骤如下:预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块;数据提取模块包括数据预处理和评价模块,模型设计模块包括训练模块和预测模块;(1)数据提取模块:主要用于提取影响合作可持续性的因素;由于目前对影响合作机制的因素没有明确的结论,所以需要通过实验证明哪些因素对合作的可持续性有影响,并将这些因素作为模型的输入因素,模型通过这些输入因素,对合作的可持续性进行预测;包括数据预处理模块和评价模块;①数据预处理模块:用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取;DBLP数据是一组由计算机科学领域的学者发表的论文组成;为了消除只做过短期科研工作的学者对处理结果产生的影响,只采用了发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练;在重建学者合作数据集后,获得所有的任意两名学者之间的合作记录;在现实社会中,有各种因素可能会推动合作的可持续性,如个人意向、主要活动地区、合作偏好和所得利益等等。而预测模型能考虑越多的影响因素所得到的预测结果也会更加精准。在数据预处理模块,提取个人属性和社会属性,共计五个影响因素的数据,并分析其对合作可持续性的影响;所有的输入变量都被归一化到[0,1],以提高学习的效率,所使用的归一化思想如下:另外,所有输入数据的精确计算时间节点是两个学者第一次合作之时。当计算最短路径时,为每一次合作记录都建立新的学术合作网络,并通过该网络计算即将合作的学者A和B之间的最短路径;例如,学者A和B在2000年开始他们的合作,我们就会提取所有2000年之前发表的论文,建立合作网络。由于所有数据的发表日期精确度不同,如果精确到日期或月份,就会造成信息的缺失,所以我们只将精度精确到年份。A.个人属性模块:两个学者之间的合作可持续性的预测工作自然取决于学者本身,个人因素在建立和维护科研合作中发挥了举足轻重的作用。包括学术声望,合作偏好,职业生涯阶段等个人因素对学者的合作行为以及合作对象的选择都有很大的影响。本方法中提取学术年龄、论文量和合作者数量三个属性作为个人属性因素。学术年龄:指合作关系中学者A和B第一次合作时的学术年龄;计算方法是将调查当年的年份,减去学者发表第一篇论文的年份。事实上学者在不同的职业生涯阶段往往有不同的合作策略,例如,一名博士在读生往往经常与他的助手合作。出版量:指第一次合作时,学者A和B发表的论文数量。学者的出版量可以在一定程度上反应他的学术表现,卓有成就的学者往往会有较多的合作和较高的声誉。合作者数量:指学者A和B合作前两者各自合作过的学者数量。与学术年龄,出版量一样,这三个属性都可以反应学者的合作策略。B.社会属性:除了学者的个人因素以外,影响合作可持续性的另一个直接因素就是两学者间的社会关系网络。以往的研究表明,一个学者的社会地位对他的学术能力有很大的影响。因此我们认为,合作的可持续性将受到社会因素的影响。基于这个假设,我们从DBLP学术数据集构建了一个大型的学术合作网络,其中每个节点代表一个学者,两个节点之间的连接代表两学者有过合作。之后,我们从这个合作网络提取两个简单的基本特征,即最短路径和共同邻居。共同邻居:共同邻居是指学者A和B第一次合作前,两人都有过合作的学者的数量。根据著名的社会学理论三元闭包理论,拥有越多共同邻居的两个人越有可能在未来有所合作。因此我们用共同邻居来衡量两个学者在合作关系网络中的相对位置和临近程度。最短路径:最短路径是指两个学者在没有合作之前的合作网络中,互相到达对方所要经过的学者数量,最短路径可用于测量两个学者之间的亲密程度。个人属性数据从DBLP数据集的元数据获得即可。但若想获得社会属性数据,需要建立合作关系网。两名学者之间有过至少一片的论文合作则被认定为有过合作。同时,为了过滤掉那些孤立的节点,我们提取了整个网络中的最大连通分量。基于这个最大连通分量,我们提取了所需的社会属性数据。②评价模块:由于没有明确的影响因素作为输入因素,在模型初步完成后,需要对模型的性能和各个输入因素对预测结果的影响进行分析,以确定所选定的所有输入因素都能对合作持续性产生影响。我们通过两个真实的数据集设计了大量的实验论证合作可持续性预测模型的性能。合作可持续性预测模型是第一个用于预测学术合作可持续性的模型,所以没有同类型的模型进行性能对比。因此我们使用典型的机器学习思想,线本文档来自技高网
...
一种基于社会网络分析的学术合作可持续性的预测方法

【技术保护点】
一种基于社会网络分析的学术合作可持续性的预测方法,其特征在于,步骤如下:预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块;数据提取模块包括数据预处理和评价模块,模型设计模块包括训练模块和预测模块;(1)数据提取模块:用于提取影响合作可持续性的因素;将影响合作可持续性的因素作为模型的输入因素,对合作的可持续性进行预测;数据提取模块包括数据预处理模块和评价模块;①数据预处理模块:用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取;DBLP数据是一组由计算机科学领域的学者发表的论文组成;只采用发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练;在重建学者合作数据集后,获得所有的任意两名学者之间的合作记录;在数据预处理模块,提取个人属性和社会属性,其中共计五个影响因素的数据,并分析其对合作可持续性的影响;所有的输入数据都被归一化到[0,1],以提高学习的效率,所使用的归一化思想如下:

【技术特征摘要】
1.一种基于社会网络分析的学术合作可持续性的预测方法,其特征在于,步骤如下:预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块;数据提取模块包括数据预处理和评价模块,模型设计模块包括训练模块和预测模块;(1)数据提取模块:用于提取影响合作可持续性的因素;将影响合作可持续性的因素作为模型的输入因素,对合作的可持续性进行预测;数据提取模块包括数据预处理模块和评价模块;①数据预处理模块:用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取;DBLP数据是一组由计算机科学领域的学者发表的论文组成;只采用发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练;在重建学者合作数据集后,获得所有的任意两名学者之间的合作记录;在数据预处理模块,提取个人属性和社会属性,其中共计五个影响因素的数据,并分析其对合作可持续性的影响;所有的输入数据都被归一化到[0,1],以提高学习的效率,所使用的归一化思想如下:另外,所有输入数据的计算时间节点是两个学者第一次合作之时;当计算最短路径时,为每一次合作记录都建立新的学术合作网络,并通过该建立的网络计算即将合作的学者A和B之间的最短路径;将精度精确到年份;A.个人属性:本方法中提取学术年龄、论文量和合作者数量三个属性作为个人属性;学术年龄:指合作关系中学者A和学者B第一次合作时的学术年龄;计算方法是将调查当年的年份减去学者发表第一篇论文的年份;出版量:指第一次合作时,学者A和学者B发表的论文数量;合作者数量:指学者A和学者B合作前两者各自合作过的学者数量;B.社会属性:本方法中提取最短路径和共同邻居两个属性作为社会属性;共同邻居:指学者A和学者B第一次合作前,两人都有过合作的学者的数量;根据社会学理论三元闭包理论,拥有越多共同邻居的两个人越有可能在未来有所合作;因此,用共同邻居来衡量两个学者在合作关系网络中的相对位置和临近程度;最短路径:指两个学者在没有合作之前的合作网络中,互相到达对方所要经过的学者数量,最短路径用于测量两个学者之间的亲密程度;②评价模块:使用典型的机器学习思想,线性回归中四种典型的评价方式对模型的预测结果进行评价;同时,为了调查各个输入属性对模型的贡献率,采用如下“jackknife”的思想对各个属性的贡献率:a.除去一个属性后,利用余下的属性进行预测,即删除策略;b.只利用一个属性进行预测,即增加策略;c.利用所有属性进行预测,即全部策略;采用四种典型的指标,包括平均绝对误差MAE、平均平方误差MSE、皮尔森相关系数PCC和一致性相关系数CCC来评价合作可持续性预测模型的性能,给出真实值y和预测值则有如下:MAE的计算方式:MSE的计算方式:PCC的计算方式:CCC的计算方式:其中,n是预测结果的个数,yi和分别是真实结果和预测结果的第i个值;是y和之间的协方差,和分别是y和的方差,和分别是y和的平均值;得出预测性能越好,MAE和MSE的值越低,PCC和CCC的值越高;本方法中使用线性回归模型与合作可持续性模型进行比较,线性回归模型是为预测工作找到一个函数f(x),该函数表示为:f(x)=ω1x1+ω2x2+...+ωdxd+b或用向量的形式表示为:f(x)=ωT+b其中ω和b是从训练集学习而得;(2)模型设计模块:模型设计模块负责整个合作可持续性预测模型的构建和训练,包括训练模块和预测模块;①训练模块:合作可...

【专利技术属性】
技术研发人员:夏锋王伟崔自鑫高桐孔祥杰
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1