当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于知识图谱的信息资源查询推荐方法和系统技术方案

技术编号:22000212 阅读:45 留言:0更新日期:2019-08-31 05:23
本发明专利技术提出了一种基于知识图谱的信息资源查询推荐方法和系统,该方法首先对知识图谱进行预处理,利用表示学习方法将知识图谱映射到低维稠密的向量空间中,得到实体的向量表示;然后根据用户的历史行为计算用户对信息资源的兴趣度,结合信息资源的向量化表示和用户对信息资源的兴趣度构建用户兴趣模型;通过计算资源与资源、用户与资源之间的相似度来实现信息资源的精准推荐。本发明专利技术将知识图谱表示学习与用户兴趣模型相结合来为用户提供个性化服务,兼顾知识的内在联系和用户兴趣,根据用户输入查询的资源名称,向用户推荐与查询内容相关并且符合用户兴趣的信息资源,使得个性化查询推荐更具专业性及针对性。

A Method and System of Information Resource Query and Recommendation Based on Knowledge Map

【技术实现步骤摘要】
一种基于知识图谱的信息资源查询推荐方法和系统
本专利技术涉及知识图谱及推荐
,具体涉及一种基于知识图谱的信息资源查询推荐方法和系统。
技术介绍
近年来,信息技术的蓬勃发展带动了各行各业信息化的步伐,互联网、物联网、云计算等等逐渐融入人们的日常生活中,由此带来的是爆炸式增长的数据。庞大的信息资源库为用户提供了丰富的信息的同时也带来了资源过载的问题,这使用户在检选感兴趣的信息资源上耗费大量时间。而根据用户的历史行为数据进行个性化查询推荐,可以有效缓解资源过载的问题。推荐系统是当前应对信息过载的有效手段之一,它根据用户的历史行为分析用户的喜好,主动投其所好,例如用户在各种决策过程中购买哪种物品、阅读哪条新闻、听哪首音乐。协同过滤算法是最早提出的,同时也是研究与应用最多的一种推荐技术,它依赖于用户的行为,关注用户与项目的关联,主要分为两种不同算法,分别是基于用户的算法和基于项目的算法。基于用户的协同过滤基本原理就是寻找具有相似行为的用户,为用户推荐与其兴趣相投的用户所喜爱的资源;基于项目的协同过滤推荐旨在为用户推荐和他曾经感兴趣的项目具有相似性的项目,相似并非指项目内容的相似,而是利用用户对项目的评价或者行为,挖掘项目之间的相似度。但协同过滤算法过于依赖用户行为,导致当系统存在新用户或者新项目时,推荐将无从依据。除此之外,在实际生活中项目有上千万种,与用户产生交互的项目往往占少数,仅通过用户对项目的行为来挖掘相似项目会导致协同过滤算法的效果较差。针对这个问题,目前大多数研究的做法是引入辅助信息作为推荐算法的输入。而知识图谱包含了丰富的语义信息,旨在以结构化的形式来表示真实世界中的实体或概念以及它们之间的关联关系,其本质是一张巨大的语义网络图,将海量知识以更直观的方式展示在用户面前,由节点和边构成,其中节点代表实体或者概念,边代表实体间的关系或者实体的属性。知识图谱引入了更多的语义关系,提供了不同的关系连接种类,将知识图谱引入推荐系统中,能充分利用知识图谱中丰富的语义信息,从而可以深层次地发现用户兴趣,避免推荐结果局限于单一类型,提高了推荐系统精准性、多样性和可解释性,从而提高用户对推荐结果的满意度。目前已有一些基于知识图谱的推荐方法的研究,比如基于路径的推荐方法,需要构造连接两个实体的一条特定的路径,但手动构造路径的方法在实践中难以到达最优;基于图算法的推荐方法直观利用知识图谱是语义网络图的特点,利用随机游走等算法对图中节点进行采样,但图算法可移植性差、计算复杂度高,当面临大型知识图谱时,很难做到实时计算。
技术实现思路
专利技术目的:针对现有技术的缺陷和不足,本专利技术提供一种基于知识图谱的信息资源查询推荐方法,兼顾知识的内在联系和用户兴趣,根据用户输入查询的资源名称,快速高效地向用户推荐与查询内容相关并且符合用户兴趣的信息资源。技术方案:根据本专利技术的第一方面,提供一种基于知识图谱的信息资源查询推荐方法,所述方法包括以下步骤:(1)利用知识图谱表示学习方法将知识图谱映射至低维稠密的向量空间中,实现对知识图谱中的信息资源的向量化语义表示;(2)根据用户历史行为,计算用户对信息资源的兴趣度;(3)结合用户对信息资源的兴趣度与信息资源的向量化语义表示,构建用户兴趣模型;(4)根据用户查询的信息资源,计算该信息资源与其他信息资源的相似度,取相似度TOP-M的信息资源形成候选资源集;(5)计算候选资源集中的信息资源与用户的相似度,从候选资源集中筛选出相似度TOP-N的信息资源形成推荐列表。进一步地,所述步骤1包括:(11)从知识图谱中选取指定数量的三元组(h,r,t),称之为正例三元组,其中h、t分别代表头实体、尾实体,r表示两个实体间的关系;(12)利用负采样算法替换正例三元组的头实体或者尾实体,得到负例三元组;(13)利用表示学习模型迭代训练正例三元组和负例三元组至收敛,得到实体的向量表示Vi={v1,v2……,vm},其中m表示维度。进一步地,所述步骤12包括:(121)在关系r的所有三元组中,统计每个头实体相应的尾实体的平均个数,记为tph;统计每个尾实体相应的头实体的平均个数,记为hpt;(122)对于一个正例三元组(h,r,t),抽取实体来替换头实体h和尾实体t,以p的概率替换头实体,以1-p的概率替换尾实体,生成负例三元组,其中替换概率p的计算公式为:进一步地,所述步骤2包括:(21)收集包含用户行为的日志,包括用户浏览的资源名称、资源内容长度、浏览时长;(22)根据是否点击浏览、浏览时间、浏览速度建立多元线性方程,计算用户对资源的兴趣度。进一步地,所述步骤22包括:(221)用户点击浏览某条信息资源i,记其点击兴趣度为Ci;(222)根据用户对资源i的浏览时长ti和用户的平均浏览速度计算其浏览兴趣度Ri:其中t1表示用户对资源i的最少浏览时间,t2表示用户对资源i的最大浏览时间,S为用户的平均浏览速度,L是用户浏览资源的总长度,T是用户浏览资源的总时间;(223)综合点击兴趣度和浏览兴趣度,得到用户对资源i的兴趣度Ii=ω1Ci+ω2Ri,其中ω1、ω2代表点击兴趣度与浏览兴趣度在计算总兴趣度时所占的权重,且ω1+ω2=1。进一步地,所述步骤3中用户兴趣模型为:其中代表用户过去的兴趣向量所占的权重,代表当前的兴趣向量所占的权重,Upresent表示用户当前更新后的兴趣向量表示,Uprevious表示用户过去兴趣的向量表示,Ii表示用户对第i条资源的兴趣度,Vi表示第i条资源的向量表示。进一步地,所述方法在步骤1后还包括:根据信息资源的向量计算资源间的距离,根据距离判断其相似度,将相似的信息资源实体聚集形成一个簇,相异的信息资源实体划分到不同的簇中。进一步地,所述步骤4中通过余弦距离计算两个资源之间的相似度,所述步骤5中通过余弦距离计算信息资源与用户兴趣之间的相似度。根据本专利技术的第二方面,提供一种基于知识图谱的信息资源查询推荐系统,所述系统包括:数据预处理模块,用于利用知识图谱表示学习模型将知识图谱嵌入低维向量空间,通过学习获得实体、关系及属性的向量化表示;用户兴趣模型构建模块,用于对用户行为进行分析,了解用户的兴趣,构建用户兴趣模型;以及查询推荐模块,用于根据用户输入查询的资源获取候选资源集,在候选资源集中筛选出贴近用户兴趣的资源进行推荐。有益效果:本专利技术基于知识图谱表示学习的推荐方法把知识图谱作为一个语言丰富、逻辑推理能力强的数据集融入到传统的推荐算法中,利用表示学习将知识图谱的每个实体和关系表示为稠密低维实值向量,降低知识图谱的高维性,使得在低维向量空间中,可以高效计算实体间的语义联系,减少由于引入知识图谱带来的额外计算负担,从而增强知识图谱应用的灵活性。具体体现在:1、充分利用了知识图谱中丰富的语义信息,弥补传统协同过滤算法未考虑被推荐项目的语义信息的缺陷。利用知识图谱表示学习把知识库中的实体、关系映射到低维稠密的向量空间中,完成对实体和关系的语义表示,显著提升了计算效率,可以通过余弦距离度量实体之间的语义相似度,同时一个实体有一个稠密向量与之相应,也缓解了数据稀疏的问题。2、在模型训练过程中,采用伯努利负采样算法,该算法通过设置不同的更换头实体或尾实体的概率有效避免引入错误的负例三元组。3本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的信息资源查询推荐方法,其特征在于,所述方法包括以下步骤:(1)利用知识图谱表示学习方法将知识图谱映射至低维稠密的向量空间中,实现对知识图谱中的信息资源的向量化语义表示;(2)根据用户历史行为,计算用户对信息资源的兴趣度;(3)结合用户对信息资源的兴趣度与信息资源的向量化语义表示,构建用户兴趣模型;(4)根据用户查询的信息资源,计算该信息资源与其他信息资源的相似度,取相似度TOP‑M的信息资源形成候选资源集;(5)计算候选资源集中的信息资源与用户的相似度,从候选资源集中筛选出相似度TOP‑N的信息资源形成推荐列表。

【技术特征摘要】
1.一种基于知识图谱的信息资源查询推荐方法,其特征在于,所述方法包括以下步骤:(1)利用知识图谱表示学习方法将知识图谱映射至低维稠密的向量空间中,实现对知识图谱中的信息资源的向量化语义表示;(2)根据用户历史行为,计算用户对信息资源的兴趣度;(3)结合用户对信息资源的兴趣度与信息资源的向量化语义表示,构建用户兴趣模型;(4)根据用户查询的信息资源,计算该信息资源与其他信息资源的相似度,取相似度TOP-M的信息资源形成候选资源集;(5)计算候选资源集中的信息资源与用户的相似度,从候选资源集中筛选出相似度TOP-N的信息资源形成推荐列表。2.根据权利要求1所述的基于知识图谱的信息资源查询推荐方法,其特征在于,所述步骤1包括:(11)从知识图谱中选取指定数量的三元组(h,r,t),称之为正例三元组,其中h、t分别代表头实体、尾实体,r表示两个实体间的关系;(12)利用负采样算法替换正例三元组的头实体或者尾实体,得到负例三元组;(13)利用表示学习模型迭代训练正例三元组和负例三元组至收敛,得到实体的向量表示Vi={v1,v2……,vm},其中m表示维度。3.根据权利要求2所述的基于知识图谱的信息资源查询推荐方法,其特征在于,所述步骤12包括:(121)在关系r的所有三元组中,统计每个头实体相应的尾实体的平均个数,记为tph;统计每个尾实体相应的头实体的平均个数,记为hpt;(122)对于一个正例三元组(h,r,t),抽取实体来替换头实体h和尾实体t,以p的概率替换头实体,以1-p的概率替换尾实体,生成负例三元组,其中替换概率p的计算公式为:4.根据权利要求2所述的基于知识图谱的信息资源查询推荐方法,其特征在于,所述步骤2包括:(21)收集包含用户行为的日志,包括用户浏览的资源名称、资源内容长度、浏览时长;(22)根据是否点击浏览、浏览时间、浏览速度建立多元线性方程,计算用户对资源的兴趣度。5.根据权利要求4所述的基于知识图谱的信息资源查询推荐方法,其特征在于,所述步骤22包括:(221)用户点击浏览某条信息资源i,记其点击兴趣度为...

【专利技术属性】
技术研发人员:冯钧蒙琦陆佳民
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1