一种基于知识图谱表示学习的推荐系统技术方案

技术编号:30246177 阅读:13 留言:0更新日期:2021-10-09 20:29
本发明专利技术提供了一种基于知识图谱表示学习的推荐系统,主要包括:1、数据格式转换模块:将异源异构数据按照规范格式化处理转换;2、数据预处理模块:对格式化后的数据抽取用于模型训练测试的数据集;3、数据导入导出模块:完成数据在关系型数据库、非关系型数据库和HDFS之间的数据导入导出操作;4、数据存储模块:贯穿于系统的运行周期,完成源数据、格式化数据、预处理数据、模型结果数据、日志数据等的存储;5、模型构建模块:用于构建知识图谱表示学习算法模型和基于知识图谱表示学习的推荐算法模型;6、数据可视化及交互模块:用于向用户展示模型运行结果,包括损失曲线图、结果数值化展示等和基于用户推荐结果的交互。基于用户推荐结果的交互。基于用户推荐结果的交互。

【技术实现步骤摘要】
一种基于知识图谱表示学习的推荐系统


[0001]本专利技术属于知识图谱和推荐系统相结合的领域,特别涉及一种优化的知识图谱表示学习算法。知识图谱目前在推荐系统中的应用还不成熟,本专利技术将知识图谱应该用推荐系统中,并提供了集成方面和网页式等直观操作方式。

技术介绍

[0002]随着移动互联网的飞速发展,我们已经进入了信息爆炸的时代。目前,通过互联网提供服务的平台越来越多,相应类型的服务(购物、视频、新闻、电影、音乐、社交网络等)层出不穷。在面临网络资源指数增长、导致人们面临信息过载等问题下,如何对用户呈现感兴趣的信息成为研究的一大热门挑战。推荐是解决这个问题的一个有效途径,利用各种技术向用户推荐感兴趣的信息。因此,近年来,推荐受到了很多研究者的关注。
[0003]推荐系统形式定义如下:给定用户集合U,物品集合V,并用R
i,j
表示用户U
i
对物品 V
j
的喜好程度。随后定义一个效用函数f:U
×
V

R,则推荐系统所研究的问题就是给定任意一个用户U
i
,希望找到其喜好程度最大的物品V
k
,即:
[0004][0005]目前,许多推荐系统集成了各种推荐方法和技术。虽然它们可以提高推荐效果,但仍然面临许多挑战。冷启动问题和数据稀疏问题是推荐系统中的两个主要问题。
[0006]知识图谱作为近年来新兴的一种辅助信息引起了研究者的关注,它的出现为推荐系统在大数据环境下的设计提供了一种新的方式。Google在2012年5月17日提出了知识图谱Konwledge Graph这个概念,提出的目的是为了对搜索引擎返回的结果进行优化,提升用户搜索质量及体验,也代表着知识在互联网搜索中被成功应用。知识图谱描述的是现实场景中存在的实体以及他们之间的关系。其思想可以追溯到1986年提出的一种知识表示形式——语义网络Sematic Network。语义网络由相互链接的边和结点构成,节点表示概念或者对象,边表示节点链接关系。其在表现形式上知识图谱类似,区别在于语义网络重点描述的是概念之间的关系,而知识图谱更关注实体之间的关系。所以,本质上,知识图谱描述的是实体间关系的一种语义网络。
[0007]知识图谱中实体和实体之间丰富的语义联系所带来的辅助信息,对提升推荐算法性能提供了一种有效途径。使得知识图谱在诸多领域场景中,例如新闻、音乐、电商等都有应用的潜力。相比于其他类型的辅助信息,引入知识图谱对推荐结果的提升包含如下几个方面:1、精确性:知识图谱中引入了物品和用户的结构等信息,能够挖掘用户深层的兴趣;2、多样性:知识图谱引入多种类型的关系类型,提高了推荐结果的发散性,避免最终结果类型单一;3、可解释性:知识图谱关联了推荐结果和用户历史行为,提高了算法模型的可解释性和用户对推荐系统的信任度。
[0008]推荐领域中,被关注的重点往往是用户和物品间的联系,对物品与物品和用户与用户等之间的联系考虑的比较少。推荐算法通过知识图谱将用户、物品以及他们之间的结构信息引入,对增强用户和物品的语义信息和提高推荐的准确性有重要的研究意义。

技术实现思路

[0009]专利技术目的:提出一种基于知识图谱表示学习的推荐系统,解决知识图谱表示学习和推荐在各领域的集成式应用。
[0010]技术方案:一种基于知识图谱表示学习的推荐系统,包括如下步骤:
[0011]步骤1、对异源,包括关系型数据库、非关系型数据库和HDFS分布式文件存储系统及异构,包括非结构化数据、半结构化数据和结构化数据,按照规范格式进行数据格式化处理;
[0012]步骤2、对格式化后的数据进行数据预处理,抽取生成知识图谱表示学习算法模型和基于知识图谱表示学习的推算法模型所需的训练和测试数据集;
[0013]步骤3、构建知识图谱表示学习算法模型和基于知识图谱表示学习的推荐算法模型;
[0014]步骤4、算法模型训练结果曲线图以及数值化展示。
[0015]根据本专利技术的一个方面,所述步骤1中的数据格式化处理,具体处理过程:
[0016]对于存储在关系型数据库MySQL、非关系型数据库Hive和分布式文件存储系统 HDFS中的非结构化数据、半结构化数据,按照数据格式规范进行属性等抽取,得到结构化数据;
[0017]针对结构化类型数据,如RDF、TTL、RDFS、OWL和JSON等,从结构中抽取知识图谱三元组,包含实体和关系,构建知识图谱表示学习数据文件和推荐系统用户及领域图谱数据。
[0018]根据本专利技术的一个方面,所述步骤2中的数据预处理,具体处理过程:
[0019]将数据格式化后生成的数据首先按照比例抽取划分生成训练集、测试集和验证集,针对知识图谱数据集需要构建对应的实体ID映射文件和关系ID映射文件,通过全局ID 得到实体数据和关系数据;针对推荐算法,数据预处理生成用户图谱三元组数据文件和历史记录三元组数据文件。
[0020]根据本专利技术的一个方面,所述步骤3中的构建知识图谱表示学习算法模型包含 TransE、TransH、TransR、TransD和优化后的算法模型TransMix;构建的基于知识图谱表示学习的推荐算法模型,包含DKN、MKR、RippleNet,整个构建过程包含参数构建和模型构建两个部分。
[0021]所述的优化后的知识图谱表示学习算法进一步为:
[0022]步骤1、输入训练集S={(h,l,t)},实体集E,关系集L,间隔参数γ,向量的维度k和权重矩阵集M
r

[0023]步骤2、初始化三元组实体、关系和权重矩阵;
[0024]步骤3、对训练集按照批处理大小进行采样;
[0025]步骤4、根据采样的数据构造正负样本对;
[0026]步骤5、根据批数据对应复杂关系选择对应算法模型;
[0027]步骤6、根据损失函数进行梯度更新,更新实体向量、关系向量和权重矩阵,损失函数如下:
[0028][0029]其中,构造正负样本对过程进一步如下:
[0030]步骤1、对于每个关系,计算每个头实体对应的尾实体数量,记为tph;
[0031]步骤2、对于每个关系,计算每个尾实体对应的头实体数量,记为hpt;
[0032]步骤3、计算概率值表示替换头实体的概率;
[0033]步骤4、遍历采样数据,对于每个三元组(h,r,t),基于关系r计算所得的替换头实体概率选择替换头实体或者尾实体得到负样本,与正样本拼接得到一对正负样本对。
[0034]所述的知识图谱表示学习算法模型的构建具体过程为:
[0035]模型参数构建:指定训练集文件train、测试集文件test、验证集文件、实体映射文件、关系映射文件、正负样本间隔参数、向量化维度参数、模型学习率、正负样本距离计算范数、训练轮次、损失结果输出路径、实体向量化后的输出文件路径和关系向量化后的输出文件路径;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱表示学习的推荐系统,其特征在于,包括如下步骤:步骤1、对异源,包括关系型数据库、非关系型数据库和HDFS分布式文件存储系统及异构,包括非结构化数据、半结构化数据和结构化数据,按照规范格式进行数据格式化处理;步骤2、对格式化后的数据进行数据预处理,抽取生成知识图谱表示学习算法模型和基于知识图谱表示学习的推算法模型所需的训练和测试数据集;步骤3、构建知识图谱表示学习算法模型和基于知识图谱表示学习的推荐算法模型;步骤4、算法模型训练结果曲线图以及数值化展示。2.根据权利要求1所述的一种基于知识图谱表示学习的推荐系统,所述步骤1中的数据格式化处理,具体处理过程:对于存储在关系型数据库MySQL、非关系型数据库Hive和分布式文件存储系统HDFS中的非结构化数据、半结构化数据,按照数据格式规范进行属性等抽取,得到结构化数据;针对结构化类型数据,如RDF、TTL、RDFS、OWL和JSON等,从结构中抽取知识图谱三元组,包含实体和关系,构建知识图谱表示学习数据文件和推荐系统用户及领域图谱数据。3.根据权利要求1所述的一种基于知识图谱表示学习的推荐系统,所述步骤2中的数据预处理,具体处理过程:将数据格式化后生成的数据首先按照比例抽取划分生成训练集、测试集和验证集,针对知识图谱数据集需要构建对应的实体ID映射文件和关系ID映射文件,通过全局ID得到实体数据和关系数据;针对推荐算法,数据预处理生成用户图谱三元组数据文件和历史记录三元组数据文件。4.根据权利要求1所述的一种基于知识图谱表示学习的推荐系统,所述步骤3中的构建知识图谱表示学习算法模型包含TransE、TransH、TransR、TransD和优化后的算法模型TransMix;构建的基于知识图谱表示学习的推荐算法模型,包含DKN、MKR、RippleNet,整个构...

【专利技术属性】
技术研发人员:陈境高阳
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1