System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于网络表示算法计算师承关系判断方法技术_技高网

一种基于网络表示算法计算师承关系判断方法技术

技术编号:41712901 阅读:11 留言:0更新日期:2024-06-19 12:41
本发明专利技术公开了一种基于网络表示算法计算师承关系判断方法,通过对多个领域的论文、专利数据进行分析统计,并利用网络表示学习算法构建网络表示学习器,再基于深度神经网络‑混合主成分分析(PCA)算法和池化层技术手段,搭建师承关系识别器,同时加入属性网络信息,基于学科搭建新学科图谱识别器,对不同学科进行分类优化,利用师承关系识别器形成advisor‑advisee顾问和被顾问对的数据集,结合师承关系识别器和新学科图谱识别器,建立可靠的机器学习预测模型预测导师‑学生关系,统计并建模计算出该技术在论文和专利中人才在不同时期时合作网络,从而判断出该人才的师承关系,例如该人才导师是谁,带过哪些学生等师承关系。

【技术实现步骤摘要】

本专利技术属于信息,具体涉及一种基于网络表示算法计算师承关系判断方法


技术介绍

1、学术网络可以根据不同类型的关系形成,比如同事、朋友和导师与导师的关系。这些关系通常反映了不同的人际交往。例如,在导师与被导师的关系中,博士生的研究课题通常由他/她的导师(即导师)决定。而在友谊关系中,一个人的日常安排可能会由他/她的朋友来决定。这些互动控制着社交网络的动态和复杂性。为了更好地基于网络科学对交互进行建模,一个具体的网络被抽象成一个由节点和边组成的图,其中节点代表实体,边表示不同的关系。因此,我们可以使用图论方法和机器学习技术从局部和全局的角度对节点和边的关系进行建模。

2、在传统人与人关系构建中,主要依靠手工录入,及人的主体主动填写师承关系,但这种方法不仅很难采集(数据隐私、安全顾虑,人工成本较高)等主观因素的影响,同时由于没有完整、客观和规模化的梳理体系,从而导致师承关系数据体系参考价值有限,如果需要大规模的对人才关系数据进行师承关系构建(百万量级),不仅需要大量的人员对人物关系进行详细的调查,不仅工作量巨大,而且同样会手到主观因素的影响,因此,我们需要提出一种基于网络表示算法计算师承关系判断方法来解决上述存在的问题。


技术实现思路

1、本专利技术的目的在于提供一种基于网络表示算法计算师承关系判断方法,基于论文或科研期刊数据,构建机器学习模型,来准确的预测人才之间的师承关系,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术采用了如下技术方案:

3、一种基于网络表示算法计算师承关系判断方法,包括如下步骤:

4、s1、在已有智库中检索科技类近30年的论文数据,按姓名对检索出的论文数据进行聚合,统计出每个人才节点对应的论文;

5、s2、构建已搜集的论文,格式化论文数据,基于每篇论文,搭建合作者名单,构建论文数据搜集器;

6、s3、对论文数据提取以人为主体信息,合作者间构建边的链接,构建论文数据表示器;

7、s4、将边和节点基于网络表示学习算法进行表示,构建网络表示学习器,同时保留论文学科属性;

8、s5、基于深度神经网络-混合主成分分析(pca)算法和池化层技术手段,搭建师承关系识别器,同时加入属性网络信息,基于学科搭建新学科图谱识别器,对不同学科进行分类优化,利用师承关系识别器形成advisor-advisee顾问和被顾问对的数据集;

9、s6、对数据集进行进一步划分,一部分用来训练,一部分用来测试,通过adaboost方法,来对模型进行优化,最终形成训练完模型;

10、s7、预测结果输出比对,并基于实际数据籍对模型进行调优,采用长短期记忆地柜神经网络lstm进行深度优化,产生梳理完成的师承关系数据集对。

11、优选的,步骤s1中,所述智库是指由一群专门研究和提供公共政策建议的专家学者组成的独立研究机构或组织;智库通常通过发布研究报告、组织研讨会和论坛、参与政策制定和咨询的方式来发表观点和提供建议;智库包括科技、经济、国际关系、能源和环境的领域;在科技领域,智库通常会关注科技发展趋势、技术创新、科技政策的相关议题,为政府和企业决策提供科学、专业的建议和指导。

12、优选的,所述智库中的论文数据在检索时,为了保证数据的完成性与合作趋势的准确性,当前年份的数据剔除,记开始年份为ystart,结束年份为yend。

13、优选的,步骤s2中,所述搭建合作者名单是基于作者姓名和机构,构建每一作者的唯一uuid标识符。

14、优选的,步骤s3中,构建论文数据表示器的具体步骤如下:

15、s3.1、边表示为:

16、paper1---->{person1,person2....},paper2---->{person3,person4...},paper1为某一论文,其后person1,person2为与论文关联的合作者信息;

17、s3.2、数据集计算---按年份:{yend-ystart},得到想要统计的年份数据集。

18、优选的,步骤s4中,所述边为人与论文的关系,节点为论文,保留论文学科属性是为进一步基于学科分类优化训练做准备。

19、优选的,步骤s5中,使用深度神经网络-混合主成分分析(pca)算法有两个目的,第一是数据去噪,第二是为进行可视化而降维,把原始数据集降维到最小投影距离的n维数据集。

20、优选的,搭建师承关系识别器时,先使用深度神经网络-混合主成分分析(pca)算法对数据降维,发现最核心数据域,其中最核心数据域为科研机构、学术生涯年龄和姓名id中的其中一种,由于一些学科领域包含成千上万的学者,很难确保运行的计算时间和内存使用在进行多个矢量进行控制时,因此,我们添加一个池化层来压缩输入要素,首先减少每个邻接向量到1000维并计算平均值相应地减少矢量作为编码器的输入;先基于全学科整理成全量数据集,再基于新学科图谱识别器,按学科分类进行切分,划分专业数据集。

21、优选的,步骤s6中,所述数据集对模型进行优化时,具体包括如下步骤:

22、s6.1、划分训练数据集train1;

23、s6.2、划分测试数据集test1;

24、s6.3、基于train1训练模型;

25、s6.4、基于test1测试模型准确度、以及调优。

26、优选的,步骤s7中,采用长短期记忆地柜神经网络lstm进行深度优化时具体包括如下步骤:

27、s7.1、数据预处理:对输入数据进行预处理,预处理包括数据清洗、标准化、分割训练集和测试集;

28、s7.2、模型结构设计:根据具体任务的需求和数据特点,设计合适的lstm模型结构;lstm模型结构通过增加lstm层的数量、调整lstm层的大小以及添加其他类型的层来进一步优化模型;

29、s7.3、参数调优:使用训练集对模型进行训练,并通过调整不同的超参数来优化模型性能;

30、s7.4、正则化:为了减少过拟合,在模型中引入正则化技术来帮助模型更好地泛化到未见过的数据;

31、s7.5、梯度裁剪:为了避免梯度爆炸问题,在训练过程中对梯度进行裁剪,限制其最大值;

32、s7.6、序列长度处理:对于长序列数据,需考虑截断或填充序列,以便模型更好地处理;截断是根据任务需求选择保留的序列长度,填充是使用特定的填充符号将序列扩充到固定长度;

33、s7.7、批量归一化:通过批量归一化层,加速训练过程,提高模型性能和鲁棒性;

34、s7.8、模型评估和调整:使用测试集对优化后的模型进行评估,根据评估结果进行调整和改进,直到达到预期的性能。

35、本专利技术提出的一种基于网络表示算法计算师承关系判断方法,与现有技术相比,具有以下优点:

36、1、本专利技术通过对多个领域的论文、本文档来自技高网...

【技术保护点】

1.一种基于网络表示算法计算师承关系判断方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S1中,所述智库是指由一群专门研究和提供公共政策建议的专家学者组成的独立研究机构或组织;智库通常通过发布研究报告、组织研讨会和论坛、参与政策制定和咨询的方式来发表观点和提供建议;智库包括科技、经济、国际关系、能源和环境的领域;在科技领域,智库通常会关注科技发展趋势、技术创新、科技政策的相关议题,为政府和企业决策提供科学、专业的建议和指导。

3.根据权利要求2所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:所述智库中的论文数据在检索时,为了保证数据的完成性与合作趋势的准确性,当前年份的数据剔除,记开始年份为Ystart,结束年份为Yend。

4.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S2中,所述搭建合作者名单是基于作者姓名和机构,构建每一作者的唯一UUID标识符。

5.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S3中,构建论文数据表示器的具体步骤如下:

6.根据权利要求5所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S4中,所述边为人与论文的关系,节点为论文,保留论文学科属性是为进一步基于学科分类优化训练做准备。

7.根据权利要求6所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S5中,使用深度神经网络-混合主成分分析(PCA)算法有两个目的,第一是数据去噪,第二是为进行可视化而降维,把原始数据集降维到最小投影距离的n维数据集。

8.根据权利要求7所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:搭建师承关系识别器时,先使用深度神经网络-混合主成分分析(PCA)算法对数据降维,发现最核心数据域,其中最核心数据域为科研机构、学术生涯年龄和姓名ID中的其中一种,由于一些学科领域包含成千上万的学者,很难确保运行的计算时间和内存使用在进行多个矢量进行控制时,因此,我们添加一个池化层来压缩输入要素,首先减少每个邻接向量到1000维并计算平均值相应地减少矢量作为编码器的输入;先基于全学科整理成全量数据集,再基于新学科图谱识别器,按学科分类进行切分,划分专业数据集。

9.根据权利要求8所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S6中,所述数据集对模型进行优化时,具体包括如下步骤:

10.根据权利要求9所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤S7中,采用长短期记忆地柜神经网络LSTM进行深度优化时具体包括如下步骤:

...

【技术特征摘要】

1.一种基于网络表示算法计算师承关系判断方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤s1中,所述智库是指由一群专门研究和提供公共政策建议的专家学者组成的独立研究机构或组织;智库通常通过发布研究报告、组织研讨会和论坛、参与政策制定和咨询的方式来发表观点和提供建议;智库包括科技、经济、国际关系、能源和环境的领域;在科技领域,智库通常会关注科技发展趋势、技术创新、科技政策的相关议题,为政府和企业决策提供科学、专业的建议和指导。

3.根据权利要求2所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:所述智库中的论文数据在检索时,为了保证数据的完成性与合作趋势的准确性,当前年份的数据剔除,记开始年份为ystart,结束年份为yend。

4.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤s2中,所述搭建合作者名单是基于作者姓名和机构,构建每一作者的唯一uuid标识符。

5.根据权利要求1所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤s3中,构建论文数据表示器的具体步骤如下:

6.根据权利要求5所述的一种基于网络表示算法计算师承关系判断方法,其特征在于:步骤s4中,所述边为人与论文的关系,节点为...

【专利技术属性】
技术研发人员:杜琳金昭朱恒绪张蓝
申请(专利权)人:河南省人才数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1