一种基于多模态信息学习的专家推荐方法技术

技术编号:33911885 阅读:51 留言:0更新日期:2022-06-25 19:36
本发明专利技术公开一种基于多模态信息学习的专家推荐方法,爬取网络专家信息数据和项目信息数据,并整理现有专家库中的专家信息数据;构建专家评审异构图和专家属性异构图;bert模型对专家的文本信息进行学习,图神经网络对专家的属性异构图进行学习,搭建自注意力推荐模型对专家历史评审序列进行学习,将学习到的嵌入输入融合层得到专家信息嵌入,得到预训练模型;用预训练模型提取专家信息嵌入,对项目信息编码获得项目信息嵌入,将获得的专家属性表示与项目信息表示输入多层感知机对模型训练,得到专家与项目的推荐分数。本发明专利技术将丰富的语义和属性信息充分融入到专家的嵌入和模型参数中,提升专家推荐的准确率。提升专家推荐的准确率。提升专家推荐的准确率。

【技术实现步骤摘要】
一种基于多模态信息学习的专家推荐方法


[0001]本专利技术属于数据处理
,特别是涉及一种基于多模态信息学习的专家推荐方法。

技术介绍

[0002]随着科技的发展等方面大力推进理论创新,各类创新性的项目申请量大幅度增加,进而导致科技项目申请不断增多。其中,在科研项目立项、结项等阶段,存在一个关键步骤——评审专家推荐。评审专家推荐即根据科研项目文档,推荐相关领域的专家进行项目评审,以评估项目的实际意义、可行性及完成质量。这就要求审核专家掌握的技术、擅长的领域与申请书内容相匹配,才能得到较为准确的评审结果。因此,如何准确地检索遴选并推荐出与项目相匹配的评审专家,如何“选好专家、用好专家”变得十分重要和关键。
[0003]在科研项目申报过程中,当前多采用人工方式进行评审专家遴选,由于人工对领域知识的理解有限,且具有一定的主观性倾向,项目申报数量的增加,专家库信息量庞大,传统的关键词检索与推荐技术存在机械匹配字词、检索与推荐的查全率和查准率偏低的问题,从而造成许多专家所分配到的项目与自己的研究方向毫不相关的问题;同时,仅凭项目管理人员的主观意识判断推荐评审专家是否符合评审标准,导致管理人员的工作量庞大,并且极易导致专家与项目不匹配的情况发生。
[0004]现有的专家推荐系统,如基于项目研究内容和评审专家研究方向的算法,其通过提取关键词计算文本特征向量的相似度,从而忽略了相关其他信息。然而实际中科研项目与评审专家的选择往往涉及到其他因素,如专家的个人属性等。同时,当新的专家出现时,往往存在专家信息不全的问题,模型无法学习到专家的有效表示,需要评审的项目出现时很难对该专家进行推荐,导致推荐准确率低的问题。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种基于多模态信息学习的专家推荐方法,利用爬取的专家数据、项目数据及现有专家库数据,通过多任务学习执行各种自我监督的预训练任务,将丰富的语义和属性信息充分融入到专家的嵌入和模型参数中,提升专家推荐的准确率。
[0006]为达到上述目的,本专利技术采用的技术方案是:一种基于多模态信息学习的专家推荐方法,包括步骤:
[0007]S10,爬取网络专家信息数据和项目信息数据,对数据进行预处理,并整理现有专家库中的专家信息数据;
[0008]S20,根据专家担任评委信息构建专家历史评审项目序列,根据专家属性构建专家属性异构图;
[0009]S30,用bert模型对专家的文本信息进行学习,用图神经网络模型对专家的属性异构图进行学习,搭建自注意力推荐模型对专家历史评审项目序列进行学习,将得到的嵌入
输入融合层得到专家信息嵌入,得到预训练模型;
[0010]S40,用预训练模型提取专家信息嵌入,同时对项目信息编码通过embedding层获得项目信息嵌入,将获得的专家属性表示与项目信息表示合并输入多层感知机对模型训练,学习得到专家对评审项目的匹配度得分。
[0011]进一步的是,在所述步骤S10中,包括:
[0012]爬取网络专家信息数据,包括专家文本信息;爬取网络中的项目信息数据;对爬取的数据进行预处理;
[0013]整理现有专家库中的数据,包括专家的姓名、职位、研究领域、工作单位属性信息和评审活动信息。
[0014]进一步的是,在所述步骤S20中,包括:
[0015]以时间顺序对专家参与评审项目构建历史评审项目序列;
[0016]以专家姓名、职位、研究领域和工作单位为节点,以节点间相关关系为边构建专家属性异构图。
[0017]进一步的是,在所述步骤S30中,包括:
[0018]将专家文本信息包括文章和个人简介输入bert模型,通过执行遮蔽语言预测任务,对bert模型进行预训练,获得专家文本嵌入;
[0019]在专家属性异构图上,执行对比预训练任务,预训练用于学习专家属性的图神经网络,获得专家属性嵌入;
[0020]将专家历史评审序列输入搭建的自注意力推荐模型,执行下一个项目预测任务,对专家历史评审项目序列进行学习,获得专家均值(用于基本兴趣)和协方差(用于兴趣的可变性)嵌入;
[0021]将提取不同嵌入进行融合获得专家信息嵌入。
[0022]进一步的是,将专家文本信息包括文章和个人简介输入bert模型,通过执行遮蔽语言预测任务,对bert模型进行训练,获得专家文本嵌入,包括步骤:
[0023]S311,通过嵌入矩阵将文本信息中的字转化为词嵌入,为每个字添加相应的段嵌入和位置嵌入,作为bert模型的输入;
[0024]S312,在遮蔽语言预测任务中,选择与专家研究领域相关的词进行屏蔽和重构;
[0025]S313,遮蔽语言预测任务损失被定义为交叉熵损失。
[0026]进一步的是,在专家属性异构图上进行对比预训练任务,训练用于学习专家属性的图神经网络,获得专家属性嵌入,包括步骤:
[0027]S321,执行关系级预训练任务,对于给定的正例三元组,为其构造不一致关系和不相关节点的负样例队列进行对比学习任务;
[0028]S322,执行子图级预训练任务,在异构图上生成元图实例来构建正样本,同时生成排队的负样本,并通过对比学习区分正负样本;
[0029]进一步的是,将专家历史评审序列输入搭建自注意力推荐模型,执行下一个项目预测任务,对专家历史评审项目序列进行学习,获得专家均值(用于基本兴趣)和协方差(用于兴趣的可变性)嵌入,包括步骤:
[0030]S331,自注意力推荐模型,他包括随机嵌入、Wasserstein自注意力层和BPR loss中的正则化项;
[0031]S332,在随机嵌入层,通过将项目表示为多维椭圆高斯分布。椭圆高斯分布由均值向量和协方差向量控制。对于所有项目,定义一个均值嵌入表M
μ
∈R
|v|*d
和协方差嵌入表M

∈R
|v|*d
。同时分别为均值嵌入和协方差嵌入引入单独的位置嵌入P
μ
∈R
|v|*d
和P

∈R
|v|*d
由此,得到序列的包括均值(用于基本兴趣)嵌入和协方差(用于兴趣的可变性)嵌入嵌入:
[0032][0033][0034]S333,在Wasserstein自注意力层,给定物品Sk和St,对应的随机嵌入分别为d维椭圆高斯分布其中:
[0035][0035][0035]为可训练矩阵;
[0036]同时,引入Wasserstein距离作为注意力权重来衡量序列中项目之间的成对关系,并采用高斯分布的线性组合特性来聚合历史项目并获得序列表示;
[0037]S334,将序列表示输入到前馈神经网络中,应用两个带有ELU激活的逐点全连接层来在学习随机嵌入中引入非线性,并采用了残差连接、层归一化和dropout层,层输出为物品的均值嵌入和协方差嵌入;
[0038]S335,执行下一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息学习的专家推荐方法,其特征在于,包括步骤:S10,爬取网络专家信息数据和项目信息数据,对数据进行预处理,并整理现有专家库中的专家信息数据;S20,根据专家属性构建专家属性异构图,根据专家担任评委信息构建专家历史评审项目序列;S30,用bert模型对专家的文本信息进行学习,用图神经网络模型对专家的属性异构图进行学习,搭建自注意力推荐模型对专家历史评审项目序列进行学习,将得到的嵌入输入融合层得到专家信息嵌入,得到预训练模型;S40,用预训练模型提取专家信息嵌入,同时对项目信息编码通过embedding层获得项目信息嵌入,将获得的专家属性表示与项目信息表示合并输入多层感知机对模型训练,学习得到专家对评审项目的匹配度得分。2.根据权利要求1所述的一种基于多模态信息学习的专家推荐方法,其特征在于,在所述步骤S10中,包括:爬取网络专家信息数据,包括专家文本信息;爬取网络中的项目信息数据;对爬取的数据进行预处理;整理现有专家库中的数据,包括专家的姓名、职位、研究领域、工作单位属性信息和评审活动信息。3.根据权利要求2所述的一种基于多模态信息学习的专家推荐方法,其特征在于,在所述步骤S20中,包括:以时间顺序对专家参与评审项目构建历史评审项目序列;以专家姓名、职位、研究领域和工作单位为节点,以节点间相关关系为边构建专家属性异构图。4.根据权利要求3所述的一种基于多模态信息学习的专家推荐方法,其特征在于,在所述步骤S30中,包括:将专家文本信息包括文章和个人简介输入bert模型,通过执行遮蔽语言预测任务,对bert模型进行预训练,获得专家文本嵌入;在专家属性异构图上,执行对比预训练任务,预训练用于学习专家属性的图神经网络,获得专家属性嵌入;将专家历史评审序列输入搭建的自注意力推荐模型,执行下一个项目预测任务,对专家历史评审项目序列进行学习,获得专家均值和协方差嵌入;将提取不同嵌入进行融合获得专家信息属性。5.根据权利要求4所述的一种基于多模态信息学习的评审专家推荐方法,其特征在于,将专家文本信息包括文章和个人简介输入bert模型,通过执行遮蔽语言预测任务,对bert模型进行训练,获得专家文本嵌入,包括步骤:S311,通过嵌入矩阵将文本信息中的字转化为词嵌入,为每个字添加相应的段嵌入和位置嵌入,作为bert模型的输入;S312,在遮蔽语言预测任务中,选择与专家研究领域相关的词进行屏蔽和重构;S313,遮蔽语言预测任务损失被定义为交叉熵损失。6.根据权利要求4所述的一种基于多模态信息学习的评审专家推荐方法,其特征在于,
在专家属性异构图上进行对比预训练任务,训练用于学习专家属性的图神经网络,获得专家属性嵌入,包括步骤:S321,执行关系级预训练任务,对于异构图中给定的正例三元组,为其构造不一致关系和不相关节点的负样例队列进行对比学习任务;S322,执行子图级预训练任务,在异构图上生成元图实例来构建正样本,同时生成排队的负样本,并通过对比学习区分正负样本。根据权利要求4所述的一种基于多模态信息学习的评审专家推荐方法,其特征在于,将专家历史评审序列输入搭建的自注意力推荐模型,执行下一个项目预测任务,对专家历史评审项...

【专利技术属性】
技术研发人员:王书海彭浩唐翊群赵晓亮王辉胡畅霞
申请(专利权)人:石家庄铁道大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1