基于知识图谱与提示学习的跨网络学术社区资源推荐方法技术

技术编号：40809728 阅读：17 留言：0更新日期：2024-03-28 19:32

本发明专利技术公开了一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，包括：获取不同学术社区中的学术资源信息和作者信息；根据所述信息数据构建知识图谱；构建提示学习模型，包括：定义提示学习模型的提示模板、定义提示学习模型的预训练模型BERT；构建提示学习模型的预训练模型BERT的训练数据；构建提示学习模型的提示模板的训练数据；训练提示学习模型；使用已训练的提示学习模型计算用户与文章之间的相似度，并对结果进行排序，按照用户指定的推荐数目进行学术资源推荐。本发明专利技术方法可实现不同网络学术社区之间的高效便捷交流，可在多个平台间快速寻找知识的最优解，有效降低不必要的时间和精力的损耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，涉及知识图谱、提示学习、人工智能和推荐系统的交叉技术，尤其是一种通过构建跨网络学术社区的知识图谱，通过提示学习实现学术资源推荐的方法。

技术介绍

1、网络社区是用户通过计算机网络交流而形成的虚拟群体社区，其具有网络化、信息化等特点。随着大数据时代到来，网络社区成为学者们交流的主阵地，众多拥有相同兴趣爱好的学者彼此聚集在一起，相互分享知识、相互交流，形成一种新型学术交流平台。在当前知识爆发式增长的时代，网络学术社区资源知识发现也面临着前所未有的挑战。一方面，缺少一种更为有效的沟通方式，来承担不同网络学术社区之间交流的桥梁；另一方面，在信息爆炸增长的时代，学术资源在呈几何式增长，用户对知识的需求必将是快速、准确而全面化的，这对其有效获取信息提出了挑战。为了解决上述问题，如论文knowledge drivenpaper recommendation using heterogeneous network embedding method(journal ofcomputer and communications,ahmed,i.,and kalhoro,z.a.,2018)提出了一种异质图的论文推荐方法，该方法使用论文数据构建了引文图谱，然后使用metapath2vec方法来进行资源推荐，但该方法只适用于引文图谱，无法进行扩展到更多元的数据，并且metapath2vec使用的浅层神经网络特征表示能力不够强大，推荐的精度较低。

技术实现思路

1、本专利技术的目的在于

2、为达到上述目的，本专利技术采用以下技术方案。

3、一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，包括以下步骤：

4、步骤1.获取不同学术社区中的学术资源信息和作者信息，包括学术资源的标题、正文、网址、时间、来源、点赞人姓名、所属领域属性和作者的关注和访问对象属性；

5、步骤2.使用步骤1中所述数据构建知识图谱，包括：对缺失的信息进行知识补全、对已经补全的信息进行知识消歧和构建知识图谱；

6、步骤3.构建提示学习模型，包括：定义提示学习模型的提示模板、定义提示学习模型的预训练模型bert；

7、步骤4.构建提示学习模型的预训练模型bert的训练数据，包括：定义metapath2vec的元路径生成器、使用元路径生成器抽取知识图谱路径、在路径中添加特殊词；

8、步骤5.构建提示学习模型的提示模板的训练数据，包括：使用规则抽取知识图谱中的正负例数据、使用pagerank算法计算的作者的知识权重、将作者的知识权重添加到正负例数据中；

9、步骤6.训练提示学习模型，包括：使用掩码语言建模训练提示学习的预训练模型bert、使用改进的p-tuning算法训练提示学习模型的提示模板；

10、步骤7.使用已训练的提示学习模型计算用户与文章之间的相似度，并对结果进行排序，按照用户指定的推荐数目进行学术资源推荐。

11、进一步地，在步骤2中，所述的对缺失的信息进行知识补全、对已经补全的信息进行知识消歧和构建知识图谱，其具体过程包括：

12、对缺失的信息进行知识补全：采用textrank算法提取学术资源中的关键词，将相邻的关键词进行合并为关键词短语，并把关键词与关键词短语作为知识图谱中的实体；textrank算法公式：

13、

14、其中,ws(vi)是节点vi的权重分数,d是一个阻尼系数用于平衡随机游走和节点之间的关联度，是节点vi的入度总和，是节点vj的出度总和，wji是节点vj指向节点vi的边的权重，wjk是节点vj指向节点vk的边的权重，ws(vj)是节点vj的权重分数；只需要选取权重分数最大的几个词当作关键词；

15、对已经补全的信息进行知识消歧：使用fasttext将文章向量化，然后计算不同文章之间的相似度，若相似度过高则进行融合，并将其作者进行融合；fasttext算法公式：

16、

17、其中,是整个文章的词向量，w1,w2,…,wn是文章中的每一个词，是第k个词的词向量，可以通过查询此表获得，k是每篇文章的词数量；

18、计算相似度的公式为：

19、

20、其中，similarity(a,b)是计算的a和b的相似度，a和b是需要计算相似度的向量，ai和bi是两个向量的第i个维度的特征；

21、构建知识图谱：定义知识图谱的模型层和数据层，然后将数据处理成<实体、关系、实体>这种三元组形式，并在本地构建子图然后导入至neo4j数据库中。

22、进一步地，在步骤3中，所述的定义提示学习模型的提示模板、定义提示学习模型的预训练模型bert，其具体过程包括：

23、定义提示学习模型的提示模板：在神经网络模型中添加的一个额外层，用于将外部提示信息与模型的输入进行融合，其过程为：在原始输入x附近插入提示词得到提示模板：{p0,…,pi,x,pi+1,…pm,[mask]}，其中[mask]是一个特殊词，是模型需要预测的词；然后经过prompt encoder进行映射得到隐向量：{e([p0:i]),e(x),e([pi+1:m]),e([mask])}，其中不同的提示学习算法有不同的prompt encoder，最后将隐向量输入到下游的模型中；

24、定义提示学习模型的预训练模型bert：提示学习模型的预训练模型bert包含，embedding层和encoder层，预训练模型bert的embedding层是对输入x数据进行编码的操作，embedding的公式如下：

25、xe＝embedding(x)＝(tokenizer(x)+segment(x)+position(x))*wv*d (4)

26、其中，xe是编码后的矩阵，tokenizer(x)是对原始文本x进行分词后得到的one-hot编码矩阵，segment(x)用于区分x中不同句子或片段的矩阵表示，position(x)表示x中单词的位置信息的矩阵，wv*d是一个投影矩阵，用来获取稠密的输入矩阵表示；

27、encoder层对embedding层的输出进行进一步的计算与学习；在encoder层中包含了multi-head attention层、两层add&norm层和feed froward层，其中multi-headattention层用于计算输入序列中每个位置的注意力权重，有助于模型在不同的语义空间进行关注，并提供更全面的上下文信息；multi-head attention层的计算公式如公式(5)-(8)所示：

28、

29、其中，qi、本文档来自技高网...

【技术保护点】

1.一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，在步骤2中，所述的对缺失的信息进行知识补全、对已经补全的信息进行知识消歧和构建知识图谱，其具体过程包括：

3.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，在步骤3中，定义提示学习模型的提示模板、定义提示学习模型的预训练模型BERT，其具体过程包括：

4.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，所述的步骤4，具体过程包括：

5.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，所述的步骤5，具体过程包括：

6.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，在步骤6中，具体过程包括：

【技术特征摘要】

1.一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种基于知识图谱与提示学习的跨网络学术社区资源推荐方法，其特征在于，在步骤3中，定义提示学习模型的提示模板、定义提...

【专利技术属性】
技术研发人员：陈志浩，尹隽，钱萍，葛世伦，王念新，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人