当前位置: 首页 > 专利查询>清华大学专利>正文

面向科技大数据的学者行为预测方法及装置制造方法及图纸

技术编号:37774062 阅读:18 留言:0更新日期:2023-06-06 13:41
本发明专利技术公开了面向科技大数据的学者行为预测方法及装置,该方法包括:获取基于科技大数据的学者相关信息的第一学者异构数据和第二学者异构数据;利用预设的行为相关信息抽取算法对第一学者异构数据的特征进行提取得到多类异构特征;对多类异构特征进行特征和行为关联分析得到关联分析结果,并基于异构特征嵌入进行特征向量化得到行为相关特征集;以及利用行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型;将第二学者异构数据输入所述学者行为预测模型进行学者行为预测,得到学者行为预测结果。本发明专利技术能够充分挖掘科技大数据中影响学者行为的范式,并能够实现学者行为预测准确率的提升。够实现学者行为预测准确率的提升。够实现学者行为预测准确率的提升。

【技术实现步骤摘要】
面向科技大数据的学者行为预测方法及装置


[0001]本专利技术涉及行为预测
,特别是涉及面向科技大数据的学者行为预测方法及装置。

技术介绍

[0002]在互联网时代,用户行为预测成为降低运营成本,实现精准推荐和精确营销不可或缺的基石,在电子商务、物流管理、职位推荐、社群营销等众多领域有着广泛的应用。例如,通过用户浏览及搜索和个人经历等预测用户的跳槽的倾向性能够实现精准岗位推送;在电子商务平台上,根据用户的历史购买及收藏和浏览数据预测消费者可能的消费产品将提升产品转化率。面向科技大数据的学者行为预测是指通过学习科技大数据中的的潜在特征,来预测学者相关行为的可能性。基于科技大数据的学者行为预测为合作研究推荐、研究方向引导、学术生涯规划等提供了关键的技术支持。随着全球人才战略的升级,收集学者的行为数据、挖掘学者行为范式、研究历史行为为未来行为的影响机理逐渐受到了人们的重视。
[0003]按照实现方法实现原理分为四类,基于RNN的模型、基于CNN的模型、基于注意力机制的模型和基于GNN的模型。GRU4Rec是第一个使用RNN为基于会话的用户行为建模的方法,它考虑了用户历史行为,GRU4RecF、GRU4RecDwellTime、GRU4RecHierarchical等均为其改进版本;基于CNN的方法Caser模型为代表,它能够提供一种统一的和可执行的网络结构,用于捕获一般偏好和兴趣的模式;基于注意力机制的方法有SASRec、MIND等;SR

GNN行为序列被建模为图结构数据,而传统方法难以实现,其性能能够达到SOTA。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本专利技术提出一种面向科技大数据的学者行为预测方法。引入特征

行为分析方法,明确各类特征对学者行为潜在的影响,实现基于关联分析的行为预测相关特征的筛选机制;通过引入知识图谱嵌入、图嵌入和预训练模型,实现基于异构数据的行为相关异构特征集构建;并在多维异构特征集的基础上,采用多通道多塔建模技术,构建基于异构特征的序列与图通道SGC和描述通道DesC多维通道,以及所对应的独立子网络结构(塔),然后通过深度匹配组件融合向量,形成一致的学者行为预测架构。
[0006]本专利技术的另一个目的在于提出一种面向科技大数据的学者行为预测装置。
[0007]为达上述目的,本专利技术一方面提出一种面向科技大数据的学者行为预测方法,包括:
[0008]获取基于科技大数据的学者相关信息的第一学者异构数据和第二学者异构数据;
[0009]利用预设的行为相关信息抽取算法对所述第一学者异构数据的特征进行提取得到多类异构特征;
[0010]对所述多类异构特征进行特征和行为关联分析得到关联分析结果,并基于所述关
联分析结果和异构特征嵌入进行特征向量化得到行为相关特征集;以及利用所述行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型;
[0011]将所述第二学者异构数据输入所述学者行为预测模型进行学者行为预测,得到学者行为预测结果。
[0012]另外,根据本专利技术上述实施例的融合多视角图像和三维点云的目标跟踪方法还可以具有以下附加的技术特征:
[0013]进一步地,在本专利技术的一个实施例中,所述利用预设的行为相关信息抽取算法对所述第一学者异构数据的特征进行提取得到多类异构特征,包括:
[0014]使用基于规则的抽取算法和基于序列标注的方法对所述第一学者异构数据的特征进行联合抽取到特征抽取结果;
[0015]基于所述特征抽取结果得到多类异构特征;其中,所述多类异构特征,包括描述性特征、时序行为特征和网络特征。
[0016]进一步地,在本专利技术的一个实施例中,所述对多类异构特征进行特征和行为关联分析得到关联分析结果,并基于所述关联分析结果和异构特征嵌入进行特征向量化得到行为相关特征集,包括:
[0017]基于所述多类异构特征确定行为特征变化相关事件和学者行为事件之间的支持度以及置信度,以得到具有关联性的行为相关特征;
[0018]基于学术知识图谱进行特征嵌入得到特征嵌入结果,采样子图并最大化输入图子图的概率得到子图概率预测结果,以及使用预设的距离计算方法对具有语义的句子向量进行计算得到语义相似的句子计算结果;
[0019]基于行为相关特征、特征嵌入结果、子图概率预测结果和句子计算结果进行特征向量化得到行为相关特征集。
[0020]进一步地,在本专利技术的一个实施例中,利用所述行为相关特征集构建多通道多塔的预测模型MMEF;其中,所述MMEF包括面向序列和图的SGC通道和面向描述性信息的DesC通道;
[0021]所述SGC通道的输入为职业生涯序列特征和合作图特征,所述DesC通道得输入为学者描述性和机构描述性特征;
[0022]所述职业生涯序列特征通过IEM模块进行处理,所述合作图特征通过SIMM模块进行处理;其中,所述IEM模块中的TDM模块建模学者职业序列之间的时间依赖性。
[0023]进一步地,在本专利技术的一个实施例中,所述利用行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型,包括:
[0024]利用所述面向序列和图的SGC通道和面向描述性信息的DesC通道,获取学者职业生涯序列嵌入、学者间合作关系图嵌入、机构嵌入和描述嵌入;
[0025]在每个时间步融合学者间合作关系图嵌入和学者职业生涯序列嵌入得到兴趣嵌入,并对所述兴趣嵌入和所述机构嵌入进行匹配得到匹配结果;
[0026]基于所述匹配结果得到学者跳槽行为预测结果,使用二元交叉熵损失作为目标函数并基于所述学者跳槽行为预测结果进行损失计算,以对MMEF进行训练得到学者行为预测模型。
[0027]为达上述目的,本专利技术另一方面提出一种面向科技大数据的学者行为预测装置,
包括:
[0028]数据获取模块,用于获取基于科技大数据的学者相关信息的第一学者异构数据和第二学者异构数据;
[0029]特征提取模块,用于利用预设的行为相关信息抽取算法对所述第一学者异构数据的特征进行提取得到多类异构特征;
[0030]模型训练模块,用于对所述多类异构特征进行特征和行为关联分析得到关联分析结果,并基于所述关联分析结果和异构特征嵌入进行特征向量化得到行为相关特征集;以及利用所述行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型;
[0031]行为预测模块,用于将所述第二学者异构数据输入所述学者行为预测模型进行学者行为预测,得到学者行为预测结果。
[0032]本专利技术实施例的面向科技大数据的学者行为预测方法和装置,能够充分挖掘科技大数据中影响学者行为的范式,并能够实现学者行为预测准确率的提升。
[0033]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向科技大数据的学者行为预测方法,其特征在于,包括以下步骤:获取基于科技大数据的学者相关信息的第一学者异构数据和第二学者异构数据;利用预设的行为相关信息抽取算法对所述第一学者异构数据的特征进行提取得到多类异构特征;对所述多类异构特征进行特征和行为关联分析得到关联分析结果,并基于所述关联分析结果和异构特征嵌入进行特征向量化得到行为相关特征集;以及利用所述行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型;将所述第二学者异构数据输入所述学者行为预测模型进行学者行为预测,得到学者行为预测结果。2.根据权利要求1所述的方法,其特征在于,所述利用预设的行为相关信息抽取算法对所述第一学者异构数据的特征进行提取得到多类异构特征,包括:使用基于规则的抽取算法和基于序列标注的方法对所述第一学者异构数据的特征进行联合抽取到特征抽取结果;基于所述特征抽取结果得到多类异构特征;其中,所述多类异构特征,包括描述性特征、时序行为特征和网络特征。3.根据权利要求1所述的方法,其特征在于,所述对多类异构特征进行特征和行为关联分析得到关联分析结果,并基于所述关联分析结果和异构特征嵌入进行特征向量化得到行为相关特征集,包括:基于所述多类异构特征确定行为特征变化相关事件和学者行为事件之间的支持度以及置信度,以得到具有关联性的行为相关特征;基于学术知识图谱进行特征嵌入得到特征嵌入结果,采样子图并最大化输入图子图的概率得到子图概率预测结果,以及使用预设的距离计算方法对具有语义的句子向量进行计算得到语义相似的句子计算结果;基于行为相关特征、特征嵌入结果、子图概率预测结果和句子计算结果进行特征向量化得到行为相关特征集。4.根据权利要求1所述的方法,其特征在于,利用所述行为相关特征集构建多通道多塔的预测模型MMEF;其中,所述MMEF包括面向序列和图的SGC通道和面向描述性信息的DesC通道;所述SGC通道的输入为职业生涯序列特征和合作图特征,所述DesC通道得输入为学者描述性和机构描述性特征;所述职业生涯序列特征通过IEM模块进行处理,所述合作图特征通过SIMM模块进行处理;其中,所述IEM模块中的TDM模块建模学者职业序列之间的时间依赖性。5.根据权利要求4所述的方法,其特征在于,所述利用行为相关特征集构建并训练多通道多塔的预测模型以得到学者行为预测模型,包括:利用所述面向序列和图的SGC通道和面向描述性信息的DesC通道,获取学者职业生涯序列嵌入、学者间合作关系图嵌入、机构嵌入和描述嵌入;在每个时间步融合学者间合作关系图嵌入和学者职业生涯序列嵌入得到兴趣嵌入,并对所述兴趣嵌入和所述机构嵌入进行匹配得到匹配结果;基于所述匹配结果得到学者跳槽行为预测结果,使用二元交叉熵损失作为目标函数并
...

【专利技术属性】
技术研发人员:邵洲
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1