一种基于条件受限波尔兹曼机的协同过滤优化方法技术

技术编号:12812301 阅读:71 留言:0更新日期:2016-02-05 11:45
本发明专利技术公开了一种基于条件受限波尔兹曼机的协同过滤优化方法,该方法通过在改进的条件受限波尔兹曼机中融合项目类别信息作为条件层,在个性化推荐系统中提高推荐准确性。其特点是利用用户-项目评分信息、项目类别信息进行建模,考虑用户-项目评分信息、项目类别信息对用户兴趣偏好及预测评分的不同影响,并应用到改进的条件受限波尔兹曼机的计算。由于同时考虑了用户-项目评分信息、项目类别信息对用户兴趣偏好、预测评分的影响,该方法削弱了单一数据源对推荐系统的制约,提高了推荐准确性,实验结果表明该方法的推荐准确性明显高于仅采用用户-项目评分信息的受限波尔兹曼机方法。

【技术实现步骤摘要】

本专利技术涉及,具体涉及一种考 虑用户-项目评分信息和项目类别信息共同对用户兴趣偏好和最终预测评分的影响,并应 用到改进的受限波尔兹曼机方法,从而对推荐系统的推荐准确性进行提高的方法,适用于 协同过滤推荐系统,属于推荐系统研究的

技术介绍
推荐系统的目的是充分挖掘用户的兴趣偏好、帮助用户发现自己感兴趣的东西。 近二十年来,推荐系统得到了广泛研究,并成功应用于各种互联网商用系统。但是如何为用 户生成更加准确的推荐,一直是推荐系统领域研究的热点之一。 协同过滤算法是推荐系统中应用最为广泛的算法,传统的协同过滤算法面临着的 一个很严峻的问题就是很难处理大规模、高稀疏性的数据集,因此基于协同过滤的改进算 法层出不穷。奇异值分解模型SVD是一种降维技术,已经成功应用到协同过滤推荐系统中, 可以有效解决协同过滤面临的数据稀疏性问题。受限波尔兹曼机RBM也是一种有效方法可 以实现数据降维功能,受限波尔兹曼机RBM是一种具有两层结构、对称连接且无自反馈、层 间全连接、层内无连接的随机神经网络模型。Salakhutdinov和Hinton已经利用受限波尔 兹曼机RBM对大规模高稀疏性数据进行建模,并成功地应用到了协同过滤算法,提高推荐 准确性。Georgiev和Nakov基于受限波尔兹曼机RBM提出了一种non-IID模型框架,同时 对用户-用户、项目-项目的关联性进行建模。随着RBM的快速学习算法(对比散度算法 ⑶)的出现,机器学习届掀起了研究RBM理论及应用的热潮。 现有的基于受限波尔兹曼机模型的协同过滤方法中,都仅利用用户-项目评分数 据进行建模,项目的类别信息都没有得到充分利用,而且没有相关方法将项目类别信息结 合起来应用到受限波尔兹曼机模型来提高推荐准确性。
技术实现思路
本专利技术要解决的技术问题为:克服现有技术的局限性,有效解决协同过滤推荐系 统面临的数据稀疏性问题,提供,该方 法融合项目类别信息来提取用户更深层次的偏好特征,提高协同过滤推荐方法的准确性。 本专利技术解决上述技术问题采用的技术方案:一种基于条件受限波尔兹曼机的协同 过滤优化方法,在改进的条件受限波尔兹曼机中融入项目类别信息来优化,提高协同过滤 推荐系统的推荐准确性。具体实现过程如下: 首先,在受限波尔兹曼机RBM的基础上根据用户-项目评分数据和项目类别数据 特征进行方法设计,融合项目类别特征作为条件层,提出的方法IC-CRBMF (融合项目类别 信息的基于条件受限波尔兹曼机的协同过滤推荐方法),如图2所示。 IC-CRBMF包括三个部分:可见层V = (V1, V2,…,VJ,用于对m个用户(或项目) 评分数据进行建模,每一个评分使用"softmax units"来表示,其中=(ν),ν;2,···,ν;Α),表示 当评分为k时,vf =U则该评分向量其它取值全部为0,评分等级为K ;隐藏层H= ,hH),作用是进行特征提取,每个单元h,用二进制数值表示;条件层F = (f i,f2,…,fF), 用于对项目类别特征进行建模,针对可见层是用户评分矩阵或项目评分矩阵,来确定条件 层单元的取值,根据是基于用户还是基于项目将IC-CRBMF方法划分为两种:IC-CRBMF_ UserBased和 IC_CRBMF_ItemBased〇 IC-CRBMF使用条件多项式概率分布对可见层评分矩阵的每一列进行建模,使用伯 努利概率分布对隐藏层用户(或项目)特征进行建模。因此,IC-CRBMF的条件概率分布计 算公式如下: 其中V〉表示可见层第i个评分为k的二进制数值九表示隐藏层第j个单元的二 进制数值;f q表示条件层第q个单元的特征值;f表示可见层第i个评分为k的单元偏置; b,表示隐藏层第j个单元的偏置;表示可见层与隐藏层之间的连接权重;¥匕1表示可见 层与条件层的连接权重;HFql表示隐藏层与条件层的连接权重;是激活函数。 IC-CRBMF,可见层V的边缘概率分布: IC_CRBMF的能量函数: 利用最大似然估计计算目标函数(边缘概率分布函数)的梯度,最后使用梯度上 升法迭代更新参数,最终得到IC-CRBMF所有参数的最佳值。 本专利技术与现有技术相比的优点在于: (1)、基于受限波尔兹曼机的协同过滤算法只利用了用户-项目评分信息,而没有 充分利用其它的信息来挖掘用户的兴趣偏好。本专利技术在基于条件受限波尔兹曼机的协同过 滤方法中融入了丰富的项目类别信息,作为条件层特征信息,充分考虑到项目类别信息对 用户兴趣和预测评分的影响,更深层次的提取用户(项目)特征,提高了协同过滤系统的推 荐准确性。 (2)、从实验结果中可以看出,引入项目类别信息确实能够提高基于受限波尔 兹曼机的协同过滤推荐方法的评分预测精度,并且IC-CRBMFJJserBased和IC-CRBMF_ ItemBased的加权组合方法Hybrid IC-CRBMF(见图3)也获得比单个模型更优的准确性。【附图说明】 图1为本专利技术实现流程图; 图2是融合项目类别信息的条件受限波尔兹曼机框架图。 图3是基于用户和基于项目的混合条件波尔兹曼机框架图。 图4是各个模型的MAE和RMSE值。【具体实施方式】 下面结合附图和具体实施例进一步说明本专利技术。 -种基于条件受限波尔兹曼机的协同过滤优化方法,融合项目类别信息,提出一 种改进的受限波尔兹曼机方法IC-CRBMF,考虑项目类别信息对用户兴趣偏好和预测评分的 影响,并融入改进的受限波尔兹曼机模型,从而提高了协同过滤推荐方法的推荐准确性。 所述的方法IC-CRBMF,考虑项目类别信息对用户兴趣偏好、预测评分的影响,将项 目类别特征作为模型的条件层。根据可见层的不同表现形式,IC-CRBMF又分为基于用户的 IC-CRBMFJJserBased 和基于项目的 IC-CRBMF_ItemBased 两个方法。 所述的方法IC-CRBMF_UserBased,可见层是根据每个用户的评分信息进行建模, 条件层是根据该用户评分过的所有项目的类别特征信息进行建模。 所述的方法IC-CRBMFJJserBased,每个用户都是一个受限波尔兹曼机RBM训练实 例,可以具有不同数量的可见层单元,但是所有受限波尔兹曼机RBM都具有相同数量的隐 藏层单元,即所有用户共享连接权重和偏置参数。 所述的方法IC_CRBMF_ItemBased,可见层是根据每个项目的评分信息进行建模, 条件层是根据该项目的类别特征信息进行建模。 所述的方法IC-CRBMF_ItemBased,每个项目都是一个受限波尔兹曼机RBM训练实 例,可以具有不同数量的可见层单元,但是所有受限波尔兹曼机RBM都具有相同数量的隐 藏层单元,即所有项目共享连接权重和偏置参数。 所述的方法IC-CRBMFJJserBased和IC_CRBMF_ItemBased,最重要的区别在于可 见层的评分表示和条件层的项目类别特征的表示。 方法实现共分为两个阶段,第一个阶段是方法设计阶段,主要是根据受限波尔兹 曼机模型的特点和数据集的特征进行模型设计。IC-CRBMF主要包括三个部分:可见层V,隐 藏层H和条件层F。 如图1所示,主要包括如下步骤: 步骤Al)、利用条件多项式概率分布对可见层每一列的评分本文档来自技高网
...

【技术保护点】
一种基于条件受限波尔兹曼机的协同过滤优化方法,其特征在于:所述方法分为两个阶段:第一个阶段是设计阶段,根据条件受限波尔兹曼机模型的特点和数据集的特征进行模型设计,模型包括可见层V,即评分数据输入层、隐藏层H,即特征提取层和条件层F,即条件数据输入层;实现步骤如下:步骤A1、利用条件多项式概率分布对可见层v每一列的评分向量进行建模,可见层的单元被激活的概率为:p(vik=1|H,F)=exp(bik+Σj=1HWijkhj+Σq=1FfqVFqi)Σk=1Kexp(bik+Σj=1HWijkhj+Σq=1FfqVFqi)]]>其中表示可见层第i个评分为k的二进制数值;hj表示隐藏层第j个单元的二进制数值;fq表示条件层第q个单元的特征值;表示可见层第i个评分为k的单元偏置;bj表示隐藏层第j个单元的偏置;表示可见层与隐藏层之间的连接权重;VFqi表示可见层与条件层的连接权重;步骤A2、利用伯努利概率分布对隐藏层H的特征向量进行建模,隐藏层的单元hj被激活的概率:p(hj=1|V,F)=σ(bj+Σi=1VΣk=1KvikWijk+Σq=1FfqHFqj)]]>其中表示可见层第i个评分为k的二进制数值;fq表示条件层第q个单元的特征值;表示可见层第i个评分为k的单元偏置;bj表示隐藏层第j个单元的偏置;表示可见层与隐藏层之间的连接权重;HFqi表示隐藏层与条件层的连接权重;是激活函数,其中x=bj+Σi=1VΣkKvikWijk+Σq=1FfqHFqj;]]>第二个阶段是学习阶段,构造模型参数并求出最佳的参数值,用于预测评分,包括如下步骤:步骤B1、参数初始化参数为可见层与隐藏层的连接权重可见层与条件层的连接权重VFqi、隐藏层与条件层的连接权重HFqi都使用均值为0,标准差为0.01的正态分布进行初始化;可见层单元偏置隐藏层单元偏置bj初始化为全零;步骤B2、采用随机梯度上升法进行参数更新,通过不断迭代更新得到模型参数的最佳值,参数的梯度公式如下:ΔWijk=∂logp(V)∂Wijk=<vikhj>data-<vikhj>model]]>Δbik=∂logp(V)∂bik=<vik>data-<vik>model]]>Δbj=∂logp(V)∂bj=<hj>data-<hj>model]]>ΔVFqi=∂logp(V)∂VFqi=<vikfq>data-<vikfq>model]]>ΔHFqj=∂logp(V)∂HFqj=<hjfq>data-<hjfq>model]]>其中<·>data表示由训练集定义的期望;<·>model表示由模型IC‑CRBMF定义的期望;步骤B3、预测评分,根据最佳的参数值进行评分预测;R=Σk=1Kk·p(vik=1|H,F)]]>IC‑CRBMF:代表融合项目类别信息的基于条件受限波尔兹曼机的协同过滤推荐方法;根据基于用户和基于项目,将IC‑CRBMF分为基于用户的IC‑CRBMF_UserBased和基于项目的IC‑CRBMF_ItemBased两种,然后通过Hybrid IC‑CRBMF混合加权组合得到最终的预测结果,计算如下:RHybrid=β·RIC‑CRBMF_ItemBased+(1‑β)·RIC‑CRBMF_UserBased其中β表示组合权重。...

【技术特征摘要】

【专利技术属性】
技术研发人员:欧阳元新刘晓蒙荣文戈熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1