一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法技术

技术编号:21184765 阅读:81 留言:0更新日期:2019-05-22 15:22
一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法涉及个性化推荐算法技术领域。本发明专利技术通过使用深度学习模型层叠稀疏降噪自编码器(sSDAE)从用户基本信息、项目基本信息提取出用户、项目的特征信息,利用隐含因子模型算法进行相乘,最终与用户‑项目评分矩阵进行相应算法计算,形成最终的推荐结果,为用户形成推荐列表,从而进行个性化推荐。此发明专利技术利用深度模型层叠稀疏降噪自编码器对用户、项目的信息进行处理,通过隐含因子模型(矩阵分解方式)融合用户、项目的基本信息到用户‑项目评分信息中,预测用户对项目的评分,完成推荐任务。本发明专利技术有效地改善因冷启动、数据稀疏造成的准确性低的问题。

A Collaborative Filtering Recommendation Method Based on Cascade Sparse Denoising Self-Encoder Enhancement

A collaborative filtering recommendation method based on cascade sparse denoising and self-encoding enhancement involves the technical field of personalized recommendation algorithm. The invention extracts user and item characteristic information from user basic information and item basic information by using deep learning model cascade sparse denoising self-encoder (sSDAE), multiplies with implicit factor model algorithm, calculates corresponding algorithm with user item score matrix, forms final recommendation result, forms recommendation list for user, and carries on personalization. Recommend. This invention uses the depth model cascade sparse noise reduction self-encoder to process the information of users and projects, and fuses the basic information of users and projects into the rating information of users and projects through the implicit factor model (matrix decomposition method), predicts the rating of users to projects, and completes the recommendation task. The invention effectively improves the problem of low accuracy caused by cold start and sparse data.

【技术实现步骤摘要】
一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法
本专利技术涉及的领域为个性化推荐算法
,特别涉及一种融入辅助信息的基于层叠稀疏降噪自编码器增强的协同过滤推荐算法技术。
技术介绍
随着大数据、云计算等技术的高速发展,我们进入了信息爆炸的时代,因此我们也面临着各种各样的爆炸式增长的信息、数据。数据中蕴含着丰富的内容和价值,具有很大的潜力,但与此同时,也出现了“信息过载”的现象。怎样有效地从多种复杂、繁多结构的数据中获取最有价值的信息,成为了目前大数据处理的关键。推荐系统作为解决“信息过载”的一种有效方法,通过推荐算法从海量的数据里挖掘出用户感兴趣的信息,并将结果以个性化列表的形式推荐给用户,目前在各个领域已经得到了广泛、成功的应用。传统的推荐方法主要包括基于内容的推荐方法和协同过滤推荐方法。其中,最经典的算法是协同过滤算法,其是目前应用最广泛的推荐算法,它可以基于用户,或者基于项目,计算用户或项目间的相似度,如是基于用户,则把和要预测的用户最相近的用户喜欢的项目推荐给该用户,完成推荐,基于项目的协同过滤与此类似,只是用户、项目反过来衡量来完成个性化推荐。协同过滤中的矩阵因子分解算法,利用用户与项目之间的交互信息(用户对项目的行为,包括且不仅包括评分等)为用户进行推荐。近年来协同过滤算法在Netflix大奖赛中屡获大奖,但是也遭遇了严重的数据稀疏问题,如我们经常浏览各种信息、物品,却鲜少对里面的项目进行了评价等交互,这样,计算机很难从极少的显式交互行为中完成对我们兴趣的预测。最严重的数据稀疏结果,对于单个的用户、项目来说,即一个用户对任何项目没有任何交互,一个项目没有得到任何用户的交互,这两种情况分别称之为用户冷启动问题、项目冷启动问题。此外,经典的协同过滤方法采用浅层模型,无法学习到用户和项目的深层次特征,浅层模型是由人工设计特征,其有效性及可扩展性非常有限,制约了推荐算法的性能。目前互联网中越来越多的各式数据能够被有效获取,如图像、文本、标签等多种异构数据蕴含着丰富的用户、项目信息,这些信息可以用来满足我们进行个性化推荐的需求。融合多源异构辅助信息(sideinformation)的混合推荐方法能够有效的缓解冷启动与数据稀疏问题,是目前重要的一个研究方向。但是由于这些辅助信息存在异构、多态、数量级大、分布不均和数据稀疏的问题,融合多源异构的数据的混合推荐算法研究目前仍面临着严峻的挑战。近年来,深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性的进展,这亦为个性化推荐的算法研究带来了新的机遇。一方面,深度学习可以通过学习深层非线性网络结构,来表示用户和项目的海量数据,具有强大的从样本中学习数据集本质特征的能力,能够获取用户和项目更深层次的特征表示。另一方面,深度学习通过从多源异构数据中进行自动特征学习,将不同的数据映射到一个相同的隐式空间,能够获得数据的统一表征,在此基础上融合传统的推荐方法来进行推荐,则能够有效的利用多源异构数据,从而缓解传统推荐系统中的数据稀疏和冷启动问题。为了有效缓解推荐系统中用户、项目冷启动,数据稀疏导致的推荐准确率低的问题,本专利技术提出了一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法。
技术实现思路
传统的协同过滤推荐算法存在冷启动、数据稀疏导致的推荐准确率低的问题,为了解决上述问题,本专利技术提出了基于层叠稀疏降噪自编码器增强的协同过滤(隐含因子模型)算法。通过使用深度学习模型层叠稀疏降噪自编码器(sSDAE)从用户基本信息、项目基本信息提取出用户、项目的特征信息,将其替换传统的协同过滤算法--隐含因子模型中的初始化用户-特征、项目-特征矩阵,利用隐含因子模型算法进行相乘,最终与用户-项目评分矩阵进行相应算法计算,形成最终的推荐结果,为用户形成推荐列表,从而进行个性化推荐。此专利技术利用深度模型层叠稀疏降噪自编码器对用户、项目的信息进行处理,通过隐含因子模型(矩阵分解方式)融合用户、项目的基本信息到用户-项目评分信息中,预测用户对项目的评分,完成推荐任务。本专利技术有效地改善了传统协同过滤算法因冷启动、数据稀疏造成的准确性低的问题。为了达到本专利技术的目的,本专利技术提出了一个新型结合算法,该算法由三部分组成:数据预处理模块、层叠稀疏降噪自编码器模块、隐含因子模型模块。除数据预处理部分,层叠稀疏降噪自编码器与隐含因子模型的结合算法框架由三部分构成,其中左右两部分代表基于sSDAE的用户、项目特征提取模型,中间部分代表基于LFM的协同过滤模型。其中,左、右两侧的特征提取部分,输入分别为处理过的用户基本信息、项目基本信息,输出为用户-特征、项目-特征的隐藏层表示,以此来进行用户、项目的深层特征提取。在中间的LFM模型部分,改进LFM,使用sSDAE模型提取的隐藏层特征矩阵替换掉LFM模型里初始化的用户-特征、项目-特征矩阵,进行矩阵相乘,最终与用户-项目评分矩阵进行损失最小化计算,使用随机梯度下降法得到最优解,最后用得到的相乘矩阵作为用户对项目的预测评分矩阵进行推荐。下面是基于层叠稀疏降噪自编码器增强的协同过滤算法:输入:用户-项目评分矩阵用户的基本信息x1,项目的基本信息x2。输出:用户的top-N推荐列表。Step1将用户的基本信息、项目的基本信息转为数字形式,对项目包含的自然语言进行自然语言处理,使用TF-IDF舍弃停用词,形成词汇表,使用one-hot编码将用户的基本信息、项目的基本信息转化为层叠稀疏降噪自编码器(sSDA)能够处理的向量信息;Step2随机初始化噪声系数在0-1区间,对用户的基本信息、项目的基本信息加入噪声,使用随机置0法,由输入向量x加入噪音得到x',则加噪的用户基本信息为x1',加噪的项目基本信息为x2'。Step3初始化稀疏降噪自编码器(SDA)的各参数:稀疏降噪自编码器稀疏惩罚因子γ=0.01;稀疏性参数ρ=0.001;随机均匀分布法初始化We;Wd;be;bd;初始化层叠稀疏降噪自编码器最内层神经元节点数B=50;Step4将Step1、Step2处理得到的用户的基本信息x1'、项目的基本信息x2'分别作为输入。计算隐藏层神经元的平均激活度:yj代表的是隐藏神经元j的激活度,则yj(x(i))表示的是输入为x的情况下,自编码器神经网络隐藏神经元j的激活度,K为样本个数,为达稀疏性限制的作用,加入以下限制:其中,ρ为稀疏性参数,普遍取值0.001,上式表示让隐藏神经元j的平均活跃度接近ρ。为实现稀疏限制,在优化目标函数中加入额外的惩罚因子,最小化这一惩罚因子:S2代表隐藏层神经元个数,是分别以ρ为均值和以为均值的两个伯努利随机变量之间的相对熵。加入稀疏惩罚因子γ,普遍取值0.01,加入稀疏性要求后的损失函数为:其中,x是输入向量,是自编码器编码再解码后还原的向量,N是输入向量的维度。代表sSDA模型反向传播算法后得到的重构数据和输入数据之间的欧式举例的平方,代表sSDA模型的损失。利用公式(5)、(6)进行编、解码,使用随机梯度下降法,以公式(4)作为优化目标,通过调节参数We;Wd;be;bd;使得最小化,得到用户-特征隐层、项目-特征隐层;稀疏降噪自编码器编码过程:y=Wex'+be(5)稀疏降噪自编码器解码过程:Step5设置稀疏降噪本文档来自技高网
...

【技术保护点】
1.一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法,其特征在于:该方法包括数据预处理模块、层叠稀疏降噪自编码器模块、隐含因子模型模块;层叠稀疏降噪自编码器模块与隐含因子模型模块由三部分构成,其中左右两部分代表基于sSDAE的用户、项目特征提取模型,中间部分代表基于LFM的协同过滤模型;其中,左、右两侧的特征提取部分,输入分别为处理过的用户基本信息、项目基本信息,输出为用户‑特征、项目‑特征的隐藏层表示,以此来进行用户、项目的深层特征提取;在中间的LFM模型部分,改进LFM,使用sSDAE模型提取的隐藏层特征矩阵替换掉LFM模型里初始化的用户‑特征、项目‑特征矩阵,进行矩阵相乘,最终与用户‑项目评分矩阵进行损失最小化计算,使用随机梯度下降法得到最优解,最后用得到的相乘矩阵作为用户对项目的预测评分矩阵进行推荐。

【技术特征摘要】
1.一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法,其特征在于:该方法包括数据预处理模块、层叠稀疏降噪自编码器模块、隐含因子模型模块;层叠稀疏降噪自编码器模块与隐含因子模型模块由三部分构成,其中左右两部分代表基于sSDAE的用户、项目特征提取模型,中间部分代表基于LFM的协同过滤模型;其中,左、右两侧的特征提取部分,输入分别为处理过的用户基本信息、项目基本信息,输出为用户-特征、项目-特征的隐藏层表示,以此来进行用户、项目的深层特征提取;在中间的LFM模型部分,改进LFM,使用sSDAE模型提取的隐藏层特征矩阵替换掉LFM模型里初始化的用户-特征、项目-特征矩阵,进行矩阵相乘,最终与用户-项目评分矩阵进行损失最小化计算,使用随机梯度下降法得到最优解,最后用得到的相乘矩阵作为用户对项目的预测评分矩阵进行推荐。2.根据权利要求1所述的一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法,其特征在于,下面是基于层叠稀疏降噪自编码器增强的协同过滤算法:输入:用户-项目评分矩阵用户的基本信息x1,项目的基本信息x2;输出:用户的top-N推荐列表;Step1将用户的基本信息、项目的基本信息转为数字形式,对项目包含的自然语言进行自然语言处理,使用TF-IDF舍弃停用词,形成词汇表,使用one-hot编码将用户的基本信息、项目的基本信息转化为层叠稀疏降噪自编码器能够处理的向量信息;Step2随机初始化噪声系数在0-1区间,对用户的基本信息、项目的基本信息加入噪声,使用随机置0法,由输入向量x加入噪音得到x',则加噪的用户基本信息为x1',加噪的项目基本信息为x2';Step3初始化稀疏降噪自编码器SDA的各参数:稀疏降噪自编码器稀疏惩罚因子γ=0.01;稀疏性参数ρ=0.001;随机均匀分布法初始化We;Wd;be;bd;初始化层叠稀疏降噪自编码器最内层神经元节点数B=50;Step4将Step1、Step2处理得到的用户的基本信息x1'、项目的基本信息x2'分别作为输入;计算隐藏层神经元的平均激活度:yj代表的是隐藏神经元j的激活度,则yj(x(i))表示的是输入为x的情况下,自编码器神经网络隐藏神经元j的激活度,K为样本个数,为达稀疏性限制的作用,加入以下限制:其中,ρ为稀疏性参数,普遍取值0.001,上式表示让隐藏神经元j的平均活跃度接近ρ;为实现稀疏限制,在优化目标函数中加入额外的惩罚因子,最小...

【专利技术属性】
技术研发人员:蒋宗礼董璇张秀英
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1