【技术实现步骤摘要】
基于深度学习的多源异构数据混合推荐模型
近年来深度学习被广泛应用在了图像和音频识别、文本分类和表示学习等领域,基于深度学习的推荐系统也成为学者们的研究热点。深度学习模型在图像、文本等特定数据的表示学习中都取得了极好的效果,避免了复杂的特征工程,可以得到异构数据的非线性多层次的抽象特征表示,克服了多种数据的异质性。目前,融合评分、评论和社交网络的深度学习推荐模型尚未提出。本专利基于深度学习算法,给出了一个具有较强拓展性的推荐模型。
技术介绍
目前的深度学习模型尚不能结合评分、评论和社交网络信息进行推荐。因为多源异构数据的特征表示尚存在困难,社交信息和其他用户和物品交互信息无法直接融合。若能采用深度学习方法学习不同异构数据的表示并将它们统一到一个深度学习模型中,将解决之前研究在算法融合上的需要选择不同算法的缺点,且使用深度学习学习特征表示,将显著提高推荐结果的准确度。为了充分利用这三种数据的优点,本专利融合评分、评论的特征并将社交信息加入到训练的过程中,提出了基于深度学习的多源异构数据推荐模型。对于评论数据,传统的话题模型不能准确表示文本的特征,本专利通过PV-DBOW模型来学习评论文档的特征表示,PV-DBOW假定文档中的单词之间的独立性,并使用该文档来预测每个观察到的单词。PV-DBOW通过一个稠密向量来代表每个文档,这个向量被训练来预测文档中的单词。对于评分数据,传统的矩阵分解方法面临数据稀疏和准确率较低的困难,本专利使用神经网络训练评分,能够更好地体现用户和物品的特征。对于社交网络数据,本专利对在基于BPR的对学习方法上增加了用户的社交关系信息,使得该 ...
【技术保护点】
1.基于深度学习提出能够处理多源异构数据的推荐模型,模型具有准确度高、可扩展性强等优点。上述方法包含了如下步骤:(1)文本特征提取:使用PV‑DBOW模型学习文本段落的特征向量表示;模型采用的是分布式的词袋模型(Distributed Bag‑of‑Words),该模型使用一个段落向量来预测段落中随机采样得到的词语;(2)评分特征提取:使用两层全连接的神经网络来学习用户对物品的评分;与文本特征学习模型不同的是,本方法可以直接得到用户和物品的特征向量表示,而不是直接提取评分的特征;(3)用户物品特征融合:根据(1)求得的评论文本特征,可以将每位用户发出的评论特征向量加权求和得到用户特征,将物品收到的评论特征向量加权求和得到物品特征,最后使用融合函数将用户的文本和评分特征融合得到用户的融合特征,将物品的文本和评分特征融合得到物品的融合特征;(4)基于BPR的优化:基于社交网络采样得到带有用户偏好的三元组,根据贝叶斯理论优化得到最佳模型参数;(5)推荐:根据步骤(4)求得的模型参数,将用户和物品的特征向量输入到模型中为用户推荐物品。
【技术特征摘要】
1.基于深度学习提出能够处理多源异构数据的推荐模型,模型具有准确度高、可扩展性强等优点。上述方法包含了如下步骤:(1)文本特征提取:使用PV-DBOW模型学习文本段落的特征向量表示;模型采用的是分布式的词袋模型(DistributedBag-of-Words),该模型使用一个段落向量来预测段落中随机采样得到的词语;(2)评分特征提取:使用两层全连接的神经网络来学习用户对物品的评分;与文本特征学习模型不同的是,本方法可以直接得到用户和物品的特征向量表示,而不是直接提取评分的特征;(3)用户物品特征融合:根据(1)求得的评论文本特征,可以将每位用户发出的评论特征向量加权求和得到用户特征,将物品收到的评论特征向量加权求和得到物品特征,最后使用融合函数将用户的文本和评分特征融合得到用户的融合特征,将物品的文本和评分特征融合得到物品的融合特征;(4)基于BPR的优化:基于社交网络采样得到带有用户偏好的三元组,根据贝叶斯理论优化得到最佳模型参数;(5)推荐:根据步骤(4)求得的模型参数,将用户和物品的特征向量输入到模型中为用户推荐物品。2.权利要求1中所描述的(1)文本特征提取步骤,其中的文本预处理使用duv来表示用户u对物品v的评论文本,评论文本包含的词语使用w来表示,通过用户对物品的评论学习到的用户和物品的特征向量使用u1和v1来表示,段落的特征向量使用duv来表示,词向量使用w来表示,所有评论的词语都储存在词库V中;这些特征向量的维度数都为K。3.权利要求1中所描述的(1)文本特征提取步骤,其中的词语采样对于每个段落,随机选取一个文本区域,从该区域中随机采样采样一些词语,作为训练分类器的结果;文本区域的大小和在该区域中选取词语的数目人工设定。4.权利要求1中所描述的(1)文本特征提取步骤,其中的最优化中每段评论都会被映射到一个随机的高维语义空间中,然后对段落中包含的词进行预测,通过学习优化,得到较为精确的段落特征向量表示;根据词袋模型的假设,每个词w在文档duv中出现的概率使用softmax进行计算:其中w′表示属于词库V的全部词语,exp表示以e为底的指数函数;通过此公式可以求得文档中任意词语出现的概率;在实际最大化出现词语概率的过程中,梯度求解的求解开销较大;为了降低计算的开销,在计算过程中往往采用负采样的方法,在未出现的词语中根据一个预定义的噪声分布来采样部分词语,作为负样本进行近似计算,而不是使用词库中所有的词语;基于负采样的策略,那么PV-DBOW的目标函数被定义为:上式将所有的词语和文档的组合都进行了相加,其中是词w在文档duv中出现的次数,如果未出现则函数值为0;代表的是sigmoid函数,t为负样本的个数,表示的是在噪声分布PV中,的期望。5.权利要求1中所描述的(1)文本特征提取步骤,其中的评论文本的特征表示具体有如下特征:根据上述的目标函数,可以得到文档的特征表示duv,和本文提出的基于传统机器学习方法的推荐模型中类似,用户和物品的特征向量可以根据评论的特征向量来表示。不过此处用户和物品的特征表示不再由评论特征向量的平均来计算,而是通过后续的模型集成优化来学习得到的。将用户所有评论的特征向量加权相加并归一化得到用户特征因子:其中Du表示用户u所有的评论数,p′uk表示用户在话题k上的总概率,Wuv表示用户u对于发出的第i个评论的权重,puk是其归一化的表示;用户u的特征因子为:pu=(pu1,...,puK)用户特征因子维数为K;物品特征因子可采用类似公式计算:其中Dv表示物品收到的所有评论数,q′vk表示物品在话题k上的总概率,qvk是其归一化的表示,Wuv表示物品v对于收到的第u个评论的权重;物品的特征因子为:qv=(qv1,...,qvK)K为物品的维度数,和用户保持一致;其中Wuv为评论duv对于...
【专利技术属性】
技术研发人员:冀振燕,宋晓军,赵颖斯,皮怀雨,李俊东,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。