一种基于社会网络分析的学术合作可持续性的预测方法技术

技术编号：15704884 阅读：116 留言：0更新日期：2017-06-26 10:14

一种基于社会网络分析的合作可持续性预测方法，分为合作持续时间预测问题和合作持续次数预测问题。统计两个学者第一次合作时各自的个人属性和社会属性，并将所提取的数据输入合作可持续性预测模型，即得到由模型预测的合作可持续性结果。预处理模块将从真实计算机科学领域论文集中提取的原始数据计算和归一化为所需的属性数据。训练模块使用集成树思想和梯度下降理论建立模型，并使用训练集中的数据调整参数，使预测结果更加精准。预测模块使用预测集内的数据和已经调整好参数的模型进行预测。评价模块通过对比实际结果和预测结果，使用“Jackknife”思想对模型的预测结果进行评价，计算出预测模型的整体性能和已经选取的输入因素对模型预测结果的影响程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于社会网络分析的学术合作可持续性的预测方法
本专利技术涉及一种学者间学术合作可持续性的预测方法，尤其涉及一种基于社会网络分析的学术合作可持续性预测方法。
技术介绍
随着科学的快速发展和科技的高速进步，越来越多的学者选择通过合作的方式共同解决复杂的科学难题。学者们可以通过合作互补优缺，提高研究的效率，缩短研究时间，使研究过程更加严谨，最终实现双赢。合作可以帮助学者更加有效地进行科学研究和科研分析。而单枪匹马的研究方式则因为个人主观思想的局限性和高错误率而逐渐被学术研究界摒弃。由于学术合作的日益广泛，人们也开始逐步了解和研究合作机制，发现合作机制中的规律。在学术界，两名学者可能有过不止一次的合作，即合作在学者间关系中具有一定的可持续性。由此，研究两名学者如何从陌生人转变为合作者的合作机制，可以预测两位学者合作的可持续性，为学者推荐更适合的合作伙伴，从而更好地促进学术合作，推动科技的进步。精确预测学术合作的可持续性具有一定的难度。主要有以下三个原因：第一，学术类数据的数据量较为庞大，使得我们难以获得所需的全部数据。第二，合作的持续具有一定的偶然性和不确定性，并且遵循一种长尾式分布规律而非线性回归，而在时间上分布不均匀的预测模型很难建立。第三，影响学术合作可持续性的因素在当前是不确定的，同时影响因素间的相互作用也会对预测结果产生干扰。目前，并没有明确的分析论证证明影响学者间合作可持续性的具体因素有哪些，但是学者间合作的可持续性又存在客观的个体差异。为了具体研究学者间的合作机制，我们提出了预测学术合作可持续性这一问题，并运用集成提升树的思想建立预测模型。在此基...
一种基于社会网络分析的学术合作可持续性的预测方法

【技术保护点】
一种基于社会网络分析的学术合作可持续性的预测方法，其特征在于，步骤如下：预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块；数据提取模块包括数据预处理和评价模块，模型设计模块包括训练模块和预测模块；(1)数据提取模块：用于提取影响合作可持续性的因素；将影响合作可持续性的因素作为模型的输入因素，对合作的可持续性进行预测；数据提取模块包括数据预处理模块和评价模块；①数据预处理模块：用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取；DBLP数据是一组由计算机科学领域的学者发表的论文组成；只采用发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练；在重建学者合作数据集后，获得所有的任意两名学者之间的合作记录；在数据预处理模块，提取个人属性和社会属性，其中共计五个影响因素的数据，并分析其对合作可持续性的影响；所有的输入数据都被归一化到[0,1]，以提高学习的效率，所使用的归一化思想如下：

【技术特征摘要】
1.一种基于社会网络分析的学术合作可持续性的预测方法，其特征在于，步骤如下：预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块；数据提取模块包括数据预处理和评价模块，模型设计模块包括训练模块和预测模块；(1)数据提取模块：用于提取影响合作可持续性的因素；将影响合作可持续性的因素作为模型的输入因素，对合作的可持续性进行预测；数据提取模块包括数据预处理模块和评价模块；①数据预处理模块：用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取；DBLP数据是一组由计算机科学领域的学者发表的论文组成；只采用发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练；在重建学者合作数据集后，获得所有的任意两名学者之间的合作记录；在数据预处理模块，提取个人属性和社会属性，其中共计五个影响因素的数据，并分析其对合作可持续性的影响；所有的输入数据都被归一化到[0,1]，以提高学习的效率，所使用的归一化思想如下：另外，所有输入数据的计算时间节点是两个学者第一次合作之时；当计算最短路径时，为每一次合作记录都建立新的学术合作网络，并通过该建立的网络计算即将合作的学者A和B之间的最短路径；将精度精确到年份；A.个人属性：本方法中提取学术年龄、论文量和合作者数量三个属性作为个人属性；学术年龄：指合作关系中学者A和学者B第一次合作时的学术年龄；计算方法是将调查当年的年份减去学者发表第一篇论文的年份；出版量：指第一次合作时，学者A和学者B发表的论文数量；合作者数量：指学者A和学者B合作前两者各自合作过的学者数量；B.社会属性：本方法中提取最短路径和共同邻居两个属性作为社会属性；共同邻居：指学者A和学者B第一次合作前，两人都有过合作的学者的数量；根据社会学理论三元闭包理论，拥有越多共同邻居的两个人越有可能在未来有所合作；因此，用共同邻居来衡量两个学者在合作关系网络中的相对位置和临近程度；最短路径：指两个学者在没有合作之前的合作网络中，互相到达对方所要经过的学者数量，最短路径用于测量两个学者之间的亲密程度；②评价模块：使用典型的机器学习思想，线性回归中四种典型的评价方式对模型的预测结果进行评价；同时，为了调查各个输入属性对模型的贡献率，采用如下“jackknife”的思想对各个属性的贡献率：a.除去一个属性后，利用余下的属性进行预测，即删除策略；b.只利用一个属性进行预测，即增加策略；c.利用所有属性进行预测，即全部策略；采用四种典型的指标，包括平均绝对误差MAE、平均平方误差MSE、皮尔森相关系数PCC和一致性相关系数CCC来评价合作可持续性预测模型的性能，给出真实值y和预测值则有如下：MAE的计算方式：MSE的计算方式：PCC的计算方式：CCC的计算方式：其中，n是预测结果的个数，yi和分别是真实结果和预测结果的第i个值；是y和之间的协方差，和分别是y和的方差，和分别是y和的平均值；得出预测性能越好，MAE和MSE的值越低，PCC和CCC的值越高；本方法中使用线性回归模型与合作可持续性模型进行比较，线性回归模型是为预测工作找到一个函数f(x)，该函数表示为：f(x)＝ω1x1+ω2x2+...+ωdxd+b或用向量的形式表示为：f(x)＝ωT+b其中ω和b是从训练集学习而得；(2)模型设计模块：模型设计模块负责整个合作可持续性预测模型的构建和训练，包括训练模块和预测模块；①训练模块：合作可...

【专利技术属性】
技术研发人员：夏锋，王伟，崔自鑫，高桐，孔祥杰，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人