基于学者研究兴趣知识图谱的学者推荐方法、系统及介质技术方案

技术编号:33630108 阅读:28 留言:0更新日期:2022-06-02 01:32
本发明专利技术公开了一种基于学者研究兴趣知识图谱的学者推荐方法、系统及介质,涉及文本挖掘、数据挖掘与推荐系统领域。本发明专利技术所涉及的主要流程包括:学者学术成果数据的采集与处理;学者研究兴趣标签数据的采集与处理;学者研究兴趣标签识别模型的训练与存储;基于学者研究兴趣知识图谱图神经网络的需求学者推荐。本发明专利技术提出的方法为一种基于知识图谱和图神经网络的学者推荐方法,可以在学术大数据背景下挖掘实际需求文本中的深度知识需求和学者学术知识间的关联,实现面向实际需求且符合深度需求知识关联模式的学者智能推荐。度需求知识关联模式的学者智能推荐。度需求知识关联模式的学者智能推荐。

【技术实现步骤摘要】
基于学者研究兴趣知识图谱的学者推荐方法、系统及介质


[0001]本专利技术涉及文本挖掘、数据挖掘与推荐系统领域,特别涉及一种基于学者研究兴趣知识图谱的学者推荐方法、系统及介质。

技术介绍

[0002]在科技强国的大背景下,越来越多的学者纷纷投身于科研工作中。为了找到所需要的学者,有学者智力支持需求的企业需要对学者的知识能力进行深入考察,以找到所掌握知识最符合需求的学者。
[0003]学者所掌握的学术知识往往可以由其研究兴趣体现,而其研究兴趣往往由其发表的学术成果体现。对学者所发表的学术成果当中的文本主题进行挖掘和归纳,就可以在很大程度上了解学者所掌握的专业知识。文本主题挖掘经历了三个阶段:以TF

IDF算法和TextRank算法为代表的关键词挖掘阶段、以关键概念共现图挖掘为代表的图挖掘阶段以及以隐狄利克雷分布的潜在语义分析(Latent Dirichlet Allocation,LDA)主题模型为代表的概率主题模型阶段。近年来,由于机器学习技术的快速发展,由Word2Vec 算法演变而来的Doc2Vec主题模型也受到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,包括以下步骤:收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。2.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理,具体为:从学术数据源中收集学者所有的学术成果数据,所收集的学术成果数据具体包括学术成果的作者、摘要与学术成果引用关系;对所收集的学术成果的摘要文本的文本数据进行预处理,包括:分词、统一字符的大小写或繁简体等表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成各学术成果摘要的文本词序列;对收集的所有学术成果进行编号和所收集学术成果数据中所有学者进行编号;将各学术成果以<学术成果编号,学术成果作者学者编号集合,引用学术成果编号集合>三元组形式进行结构化,形成结构化学术成果信息;连接各学者所发表学术成果的摘要文本词序列,以<学者编号,学术成果文本词序列>二元组形式进行结构化,形成结构化学者成果信息。3.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签,具体为:从学术数据源中收集或手动标识所有涉及学者的各N
I
个研究兴趣标签,研究兴趣标签可使用单词或词组表示;对所收集的所有学者的研究兴趣标签进行清洗,合并词义相同或相近的研究兴趣标签,并对学者研究兴趣标签进行编号。4.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述分别训练学者学术成果摘要文本主题模型和研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理,具体为:提取结构化学者成果信息中各学者的学术成果摘要文本词序列,结合各学者的研究兴趣标签,输入基于已有文本主题模型的学术成果摘要文本主题模型,训练并保存完成训练的学术成果摘要文本主题模型;将各学者的学术成果摘要文本词序列输入所保存的学术成果摘要文本主题模型,得到
各学者所著学术成果的向量化表示T;将各学者学术成果的向量化表示T与学者的研究兴趣标签输入基于多标签分类模型的研究兴趣标签识别模型,训练并保存完成训练的研究兴趣标签识别模型。5.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述建立学者研究兴趣知识图谱,具体步骤为:将各学者所述学术成果的向量化表示T作为各学者知识节点的特征表示N,即学者i的学者知识节点特征N
i
为:N
i
=T
i
其中,T
i
为学者i的学术成果的向量化表示;记生成的研究兴趣标签所包含的学者序号为则研究兴趣标签知识节点的特征表示为:由学者u指向学者v的知识节点间关系强度表示为:其中,N
ac,v
为学者v所有的学术成果数量,为学者u和学者v共同发表的学术成果数量,为学者u所著的引用了学者v所著学术成果的学术成果数量;将生成的各学者所著学术成果的向量化表示T输入所保存的研究兴趣标签识别模型,得到各学者对各研究兴趣标签的依属概率向量P;学者i的知识节点与研究兴趣标签的知识节点间的无向关系强度为:其中,为学者i的研究兴趣标签依属向量P的第个元素;研究兴趣标签的知识节点与研究兴趣标签的知识节点间...

【专利技术属性】
技术研发人员:林伟伟许皓钧
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1