一种融合自动编码器和知识图谱语义信息的推荐方法技术

技术编号:21571577 阅读:33 留言:0更新日期:2019-07-10 15:25
本发明专利技术提出了一种融合自动编码器和知识图谱语义信息的推荐方法,包括以下步骤:获取项目数据集,并对其进行预处理;所述项目数据集包括用户、主题、评分和项目名称;训练自动编码器,并利用训练后的自动编码器对预处理后的项目数据集进行训练,构建初始用户特征表示;利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示;从用户中任选一用户作为目标用户,基于用户特征的强化表示采用KNN获得与目标用户的相似用户进行推荐。本发明专利技术为神经网络中的隐藏层提供了解释性意义,在准确率、召回率、F值推荐性能指标方面有着良好的表现。

A Recommendation Method Fusing Semantic Information of Automatic Encoder and Knowledge Map

【技术实现步骤摘要】
一种融合自动编码器和知识图谱语义信息的推荐方法
本专利技术涉及数据分析领域,具体涉及一种融合自动编码器和知识图谱语义信息的推荐方法。
技术介绍
移动互联网的迅速发展为人们的生活带来便利的同时,还带来了信息过载问题。在信息过载的今天,人们做出有效的选择变得十分困难。推荐系统旨在解决信息过载的问题,为用户找到一组满足他们个性化兴趣的物品。推荐系统发展至今,人们已经提出了许多高效的算法和模型来解决推荐问题。传统推荐算法主要分为:协同过滤算法(CollaborativeFiltering)、基于内容的推荐(Content-based)、混合推荐。协同过滤算法考虑了用户的历史交互,并根据用户潜在的共同偏好进行推荐,取得了巨大的成功。然而,基于协同过滤的方法通常受到用户—项目交互的稀疏性和冷启动问题的影响。为了解决这些局限性,研究人员建议将辅助信息合并到协同过滤算法中,比如社交网络、用户/项目属性、图像和上下文。与协同过滤算法不同,基于内容的推荐算法利用特征表示性元数据来查找与用户历史评价的项目中类似项目,并相应地推荐它们。研究表明,将两种策略结合在一个混合推荐算法中,推荐质量可以得到改善。基于内容的算法需要获取项目的相关信息,以便对其相应的特性建模。在这个方向上,近年来知识图谱被广泛应用于表征、计算其相似性和相关性,以及为基于内容的推荐和混合推荐提供数据。知识图谱以关联开放数据(LOD)数据集的形式供大众免费获取使用,为知识感知的推荐系统在许多应用领域的发展铺平了道路。
技术实现思路
本专利技术提出了一种融合自动编码器和知识图谱语义信息的推荐方法,包括以下步骤:获取项目数据集,并对其进行预处理;所述项目数据集包括用户、主题、评分和项目名称;训练自动编码器,并利用训练后的自动编码器对预处理后的项目数据集进行训练,构建初始用户特征表示;利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示;从用户中任选一用户作为目标用户,基于用户特征的强化表示采用KNN算法获得与目标用户的相似用户进行推荐。进一步地,所述预处理包括过滤无用数据,使用查询语句从知识库中获取项目的相关联主题。进一步地,所述训练自动编码器包括以下步骤:使用矩阵M来训练自动编码器,其中的行和列分别代表项目名称i和特征f;其中计算自动编码器的隐藏层h和输出层o,具体计算公式为:h=g(X×(W·M))o=g(h×(R·MT))其中,g为Sigmoid函数,X是评分矩阵,W是输入层与隐藏层之间的权值矩阵,R是隐藏层与输出层之间的权值矩阵。进一步地,所述将预处理后的项目数据集通过训练后的自动编码器训练后得到输出评分矩阵Y,具体训练步骤包括:所述用户用u表示;对W和R按照均方误差损失计算梯度E:其中xl为评分矩阵X中第l个评分,yl为输出评分矩阵Y中的第l个评分,l表示评分的个数,E是最小平方差损失函数;计算每个用户u的输入相关权重W′和输出相关权重R′,其计算公式如下:其中,r表示学习率;将同一用户评价的项目的相关联的主题作为特征f,计算同一用户对特征f的输入相关权重W′的累加值ω(f),其公式如下:其中|In(f)|是进入特征f的隐藏节点的边集合,W′t(f)为与进入特征f相应隐藏节点的边的输入相关权重;所述构建初始用户特征表示,具体为:Q(u)={<f,ωu(f)>}其中,Q(u)表示初始用户特征表示,ωu(f)表示用户u对特征f的输入相关权重W′的累加值ω(f)。进一步地,所述利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示包括以下步骤:计算标准化的用户特征表示Qnorm(u),具体公式为:Qnorm(u)={<f,norm(ωu(f))>|<f,ωu(f)>∈Q(u)}其中,<f,norm(ωu(f))>是根据输入相关权重W′和输出相关权重R′为用户u创建的相关对,norm是ωu(f)的映射函数,Q(u)为初始用户特征表示;对每个标准化的用户特征表示Qnorm(u)建立用户的特征序列s(u),s(u)根据用户u对各特征的输入相关权重W′的累加值从大到小的顺序排序,具体表达为:s(u)=[...,<fm,norm(ωu(fm))>,...,<fn,norm(ωu(fn))>,...],ωu(fm)≥ωu(fn)其中,ωu(fm)表示用户u对排序为第m个特征fm的输入相关权重W′的累加值,ωu(fn)表示用户u对排序为第n个特征fn的输入相关权重W′的累加值;将每个用户u的特征序列s(u)作为训练的Word2vec模型的输入,获得多个以缺失特征f′作为第一个元素的元素对<f′,ωu(f)′>,计算用户特征的强化表示Q+(u),具体公式为:其中,Q(u)为用户初始特征,argmaxp(<f′,ωu(f)′>|s(u))为经过word2vec模型训练后的最大概率缺失特征与权值。进一步地,所述从用户中任选一用户作为目标用户,基于用户特征的强化表示采用KNN算法获得与目标用户的相似用户进行推荐具体包括以下步骤:用户u中任选一用户作为目标用户v′,其余为区别于目标用户v′的其他用户v;计算目标用户v′和其他用户v之间的相似度sim(u,v),具体为:其中,确定与目标用户v′相似度最高的k+1个用户{vj,v′}组成近邻域:提取近邻域中除目标用户v′外用户vj已评分的项目的项目名称,生成目标用户v′的候选项目名称集合I;对于每个候选项目名称i,目标用户v′的感兴趣程度r(v′,i)用如下公式计算:其中r(v′,i)表示的是用户vj对于候选项目名称i的评分,rmean表示的是项目数据集中用户u对项目的平均评分;使用上述公式所计算出的前N个感兴趣程度最大的项目名称i为每个用户进行推荐。进一步地,所述k的取值范围为50到70。本专利技术与现有技术相比,有益效果在于:(1)本专利技术为神经网络中的隐藏层提供了解释性意义。(2)本专利技术将自动编码器与知识图谱中实体的语义信息相结合,解决了自动编码器训练的数据稀疏性问题,提高了推荐的准确率。(3)本专利技术利用word2vec模型补充了用户特征表示,提高了推荐的准确率。(2)本专利技术在准确率、召回率、F值推荐性能指标方面有着良好的表现。附图说明图1为本专利技术一实施例的语义自动编码器的结构图。具体实施方式下面结合附图对本专利技术作进一步详细描述。在本公开中参照附图来描述本专利技术的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本专利技术的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本专利技术所公开的构思和实施例并不限于任何实施方式。另外,本专利技术公开的一些方面可以单独使用,或者与本专利技术公开的其他方面的任何适当组合来使用。下面以电影数据集为本专利技术的一实施例对本专利技术进行进一步描述,具体描述如下。本专利技术公开了一种融合自动编码器和知识图谱语义信息的推荐方法,包括以下步骤:步骤一:利用融合知识图谱语义信息的自动编码器进行训练获得相关权重,构建初始用户特征表示,包括以下步骤:首先获取电影数据集,电影数据集中包括用户u本文档来自技高网...

【技术保护点】
1.一种融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,包括以下步骤:获取项目数据集,并对其进行预处理;所述项目数据集包括用户、主题、评分和项目名称;训练自动编码器,并利用训练后的自动编码器对预处理后的项目数据集进行训练,构建初始用户特征表示;利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示;从用户中任选一用户作为目标用户,基于用户特征的强化表示采用KNN算法获得与目标用户的相似用户进行推荐。

【技术特征摘要】
1.一种融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,包括以下步骤:获取项目数据集,并对其进行预处理;所述项目数据集包括用户、主题、评分和项目名称;训练自动编码器,并利用训练后的自动编码器对预处理后的项目数据集进行训练,构建初始用户特征表示;利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示;从用户中任选一用户作为目标用户,基于用户特征的强化表示采用KNN算法获得与目标用户的相似用户进行推荐。2.根据权利要求1所述的融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,所述预处理包括过滤无用数据,使用查询语句从知识库中获取项目的相关联主题。3.根据权利要求2所述的融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,所述训练自动编码器包括以下步骤:使用矩阵M来训练自动编码器,其中的行和列分别代表项目名称i和特征f;其中aij∈M,计算自动编码器的隐藏层h和输出层o,具体计算公式为:h=g(X×(W·M))o=g(h×(R·MT))其中,g为Sigmoid函数,X是评分矩阵,W是输入层与隐藏层之间的权值矩阵,R是隐藏层与输出层之间的权值矩阵。4.根据权利要求3所述的融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,所述将预处理后的项目数据集通过训练后的自动编码器训练后得到输出评分矩阵Y,具体训练步骤包括:所述用户用u表示;对W和R按照均方误差损失计算梯度E:其中xl为评分矩阵X中第l个评分,yl为输出评分矩阵Y中的第l个评分,l表示评分的个数,E是最小平方差损失函数;计算每个用户u的输入相关权重W′和输出相关权重R′,其计算公式如下:其中,r表示学习率;将同一用户评价的项目的相关联的主题作为特征f,计算同一用户对特征f的输入相关权重W′的累加值ω(f),其公式如下:其中|In(f)|是进入特征f的隐藏节点的边集合,W′t(f)为与进入特征f相应隐藏节点的边的输入相关权重;所述构建初始用户特征表示,具体为:Q(u)={<f,ωu(f)>}其中,Q(u)表示初始用户特征表示,ωu(f)表示用户u对特征f的输入相关权重W′的累加值ω(f)。5.根据权利要求4所述的融合自动编码器和知识图谱语义信息的推荐方法,其特征在于,所述利用word2vec模型训练后的数据获得用户的缺失主题的权重,计算用户特征的强化表示包括以下步骤:计算标准...

【专利技术属性】
技术研发人员:陈涛刘学军孙鑫
申请(专利权)人:南京工业大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1