一种电影推荐方法技术

技术编号:19825354 阅读:17 留言:0更新日期:2018-12-19 16:00
本发明专利技术公开了一种电影推荐方法,属于推荐系统技术领域。首先认为相同类型的电影,在海报设计风格上具有相似的特点;因此需要获取电影相关的海报信息,在用变分自编码对这些电影海报进行特征提取,同时把提取的海报特征作为电影的潜在特征向量,根据电影的潜在特征向量使用余弦相似度计算电影之间的相似度,然后按照相似度进行排名,最后选取最相似的几部电影作为推荐结果推荐给用户。该方法具有复杂度低,且无传统协同过滤推荐法中的稀疏与冷启动等缺点。主要用于电影推荐。

【技术实现步骤摘要】
一种电影推荐方法
本专利技术属于推荐系统

技术介绍
伴随着互联网的飞速发展,人们认知的信息出现了爆发式的增长,过去三十年产生的信息比过去人类几千年所产生信息的总和还要多。在如此海量信息的情况下,用户如何获取有效信息变得十分困难。由此为了克服“信息过载”的问题,推荐系统应运而生。而电影推荐系统是当今推荐系统中的一个重要应用,传统的电影推荐系统一般采用的是协同过滤算法,协同过滤简单来说是利用某种兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,协同过滤算法主要优点是能够推荐两个不相关的物品,但是协同过滤也面临着数据稀疏和冷启动等问题。传统的协同过滤一般分为基于用户和基于物品两类推荐算法。而近年来,由于深度学习在隐藏特征提取中的优良效果,许多人把深度学习引入到推荐系统的隐藏特征的学习中。通过对现有专利及相关技术的检索发现,现有的与电影推荐相关的方法和系统包括:(1)CN106169083A公开了一种基于视觉特征的电影推荐方法,该方法中通过使用所述的推荐用户的一系列特征因子,以及预先提取的所述未评分点用的视觉特征以及所述视觉特征中各个特征的权重,采用预先建立的电影推荐模型,预测所述待推荐用户对所述未评分电影的预测评分。其中,所述的视觉特征包括颜色直方图、SIFT特征,CNN特征和电影类别的特征等。可以看出现存的方法虽然存在一定的优势,但是也存在一些不足:采用了CNN(卷积神经网络)特征,CNN神经网络是一种有监督神经网络,同时训练样本需要人工对数据进行标记,这样不利于处理大规模的数据。目前存在应用神经网络到推荐电影的方法还较少,并且使用的多是有监督的神经网络,使用无监督神经网络的方法还很少;为了提高训练神经网络的效率,得到更高的电影推荐精度,鉴于以上陈述的已有方案的不足,本专利技术旨在提供效率更高、更完善的方案,并克服现有技术存在的缺陷。
技术实现思路
本专利技术的目的是提供一种电影推荐方法,它能有效地解决更好的推荐电影的技术问题。本专利技术目的是通过以下技术方案来实现的:一种电影推荐方法,包括以下几个步骤:步骤一、根据电影数据集中的电影的ID,从IMDB网站中提供的API中下载电影的电影海报;步骤二、构建变分自编码,变分自编码包括一个编码器和和一个解码器,为了对解码器的概率条件分布qφ(z|x(i))进行参数估计,使用编码器的条件概率分布pθ(x(i)|z)去逼近真实的后验概率qφ(z|x(i)),并采用了相对熵来判断两个分布的相似程度,于是目标公式为:L(θ,φ;x(i))=KL(qφ(z|x(i)),pθ(x(i)|z))+logpθ(x(i))其中,L(θ,φ;x(i))是求取的损失函数,而KL(qφ(z|x(i)),pθ(x(i)|z))则表示编码器的条件概率分布逼近解码器的条件概率分布的程度,θ和φ分别代表的是编码器和解码器的条件概率分布pθ(x(i)|z)和qφ(z|x(i)),x(i)其中的x代表的是电影样本,带括号的上标i代表的是计算的第i个电影样本;z是编码器的输出值以及解码器的输入值,对于编码器中的条件分布pθ(x(i)|z),式中参数θ的均值是μ',方差是σ'2,h'代表的是编码器的隐藏层,下式中W代表是权重矩阵而b1'到b3',代表编码器出现的均值、方差和隐藏层的偏置量,由于输入的图像是实值数据,所以μ'=Wh'+b1'σ'2=Wh'+b2'h'=tanh(Wz+b3')对于解码器中的条件分布qφ(z|x(i))式中参数φ的均值是μ,方差是σ2,h则是代表的是解码器的隐藏层,b1到b3,代表解码器出现的均值、方差和隐藏层的偏置量,其值为:μ=Wh+b1σ2=Wh+b2h=tanh(Wz+b3)根据以上假设,获取目标公式为:其中,z(i,h)=μ(i)+σ(i)+ε(h),ε(h)~p(ε),ε是噪声变量,且它的维数n与Z一致,H代表的是隐藏层的层数,构建好变分自编码后,使用部分电影海报对变分自编码进行训练并保存模型;步骤三、使用训练好的变分自编码模型对电影海报进行特征提取,将变分自编码模型中的解码器的输入作为提取出来的n维的海报特征,同时又把电影海报特征作为电影的n维潜在特征向量,使用余弦相似度的公式计算电影之间相似度,同时按照电影的相似度进行排序;步骤四、根据排序后的结果,选择相似度最相近的前N部电影作为推荐结果推荐给用户。2、根据权利要求1所述的一种电影推荐方法,其特征在于;所述使用电影海报训练获得的变分自编码模型,包括一个编码器和一个解码器,变分自编码模型为无限监督的算法,对提取图片的潜在特征有良好的效果。3、根据权利要求1所述的一种电影推荐方法,其特征在于;所述使用余弦相似度计算电影之间的相似度,其中,余弦相似度的计算公式如下:式中,X为待推荐电影的潜在特征向量,(x1,x2,x3,...,xn)=X,Y为其他电影的潜在特征向量,(y1,y2,y3,...,yn)=Y;遍历获取的电影海报,将提取的电影海报潜在特征作为电影的潜在特征,求出其他电影潜在特征与待推荐的电影潜在特征的相似度,由高到低进行排序。本专利技术与现有技术相比的优点和效果:1、该方法选用的变分自编码使用无监督神经网络,训练的样本不需要进行大量的人工标注,同时因为提前训练模型和提取电影潜在特征,具有推荐速度快的优势;2、该方法有效解决冷启动问题,即使从未被评价的电影也有被推荐的机会;3、该方法不要大量用户对电影评分记录,不存在数据稀疏的问题;4、该方法所构建出来的潜在特征向量所占空间小,且公式计算简单;针对传统协同过滤中出现的稀疏以及冷启动问了,具体提出了一种可行性高、实用的电影推荐方法。附图说明图1为本专利技术变分自编器的结构图。图2为本专利技术的流程图。具体实施方式下面结合附图对本专利技术作进一步的描述。基于变分自编码的电影推荐方法包含以下步骤:步骤一、根据电影数据集中的电影的ID,从IMDB网站中提供的API中下载电影的电影海报;步骤二、构建变分自编码,变分自编码器包括一个编码器和和一个解码器,为了对解码器的概率条件分布qφ(z|x(i))进行参数估计,使用编码器的条件概率分布pθ(x(i)|z)去逼近真实的后验概率qφ(z|x(i)),并采用了相对熵来判断两个分布的相似程度,于是目标公式为L(θ,φ;x(i))=KL(qφ(z|x(i)),pθ(x(i)|z))+logpθ(x(i))其中,L(θ,φ;x(i))是求取的损失函数,而KL(qφ(z|x(i)),pθ(x(i)|z))则表示编码器的条件概率分布逼近解码器的条件概率分布的程度,θ和φ分别代表的是编码器和解码器的条件概率分布pθ(x(i)|z)和qφ(z|x(i)),x(i)其中的x代表的是电影样本,带括号的上标i代表的是计算的第i个电影样本;z是编码器的输出值以及解码器的输入值,对于编码器中的条件分布pθ(x(i)|z),式中参数θ的均值是μ',方差是σ'2,h'代表的是编码器的隐藏层,下式中W代表是权重矩阵而b1'到b3',代表编码器出现的均值、方差和隐藏层的偏置量,由于输入的图像是实值数据,所以μ'=Wh'+b1'σ'2=Wh'+b2'h'=tanh(Wz+b3')对于解码器中的条件分布qφ(z|x(i))式中参数φ的均值是μ,方差是σ2,h则本文档来自技高网
...

【技术保护点】
1.一种电影推荐方法,包括以下几个步骤:步骤一、根据电影数据集中的电影的ID,从IMDB网站中提供的API中下载电影的电影海报;步骤二、构建变分自编码,变分自编码包括一个编码器和和一个解码器,为了对解码器的概率条件分布qφ(z|x(i))进行参数估计,使用编码器的条件概率分布pθ(x(i)|z)去逼近真实的后验概率qφ(z|x(i)),并采用了相对熵来判断两个分布的相似程度,于是目标公式为:L(θ,φ;x(i))=KL(qφ(z|x(i)),pθ(x(i)|z))+logpθ(x(i))其中,L(θ,φ;x(i))是求取的损失函数,而KL(qφ(z|x(i)),pθ(x(i)|z))则表示编码器的条件概率分布逼近解码器的条件概率分布的程度,θ和φ分别代表的是编码器和解码器的条件概率分布pθ(x(i)|z)和qφ(z|x(i)),x(i)其中的x代表的是电影样本,带括号的上标i代表的是计算的第i个电影样本;z是编码器的输出值以及解码器的输入值,对于编码器中的条件分布pθ(x(i)|z),式中参数θ的均值是μ',方差是σ'2,h'代表的是编码器的隐藏层,下式中W代表是权重矩阵而b1'到b3',代表编码器出现的均值、方差和隐藏层的偏置量,由于输入的图像是实值数据,所以μ'=Wh'+b1'σ'2=Wh'+b2'h'=tanh(Wz+b3')对于解码器中的条件分布qφ(z|x(i))式中参数φ的均值是μ,方差是σ2,h则是代表的是解码器的隐藏层,b1到b3,代表解码器出现的均值、方差和隐藏层的偏置量,其值为:μ=Wh+b1σ2=Wh+b2h=tanh(Wz+b3)根据以上假设,获取目标公式为:...

【技术特征摘要】
1.一种电影推荐方法,包括以下几个步骤:步骤一、根据电影数据集中的电影的ID,从IMDB网站中提供的API中下载电影的电影海报;步骤二、构建变分自编码,变分自编码包括一个编码器和和一个解码器,为了对解码器的概率条件分布qφ(z|x(i))进行参数估计,使用编码器的条件概率分布pθ(x(i)|z)去逼近真实的后验概率qφ(z|x(i)),并采用了相对熵来判断两个分布的相似程度,于是目标公式为:L(θ,φ;x(i))=KL(qφ(z|x(i)),pθ(x(i)|z))+logpθ(x(i))其中,L(θ,φ;x(i))是求取的损失函数,而KL(qφ(z|x(i)),pθ(x(i)|z))则表示编码器的条件概率分布逼近解码器的条件概率分布的程度,θ和φ分别代表的是编码器和解码器的条件概率分布pθ(x(i)|z)和qφ(z|x(i)),x(i)其中的x代表的是电影样本,带括号的上标i代表的是计算的第i个电影样本;z是编码器的输出值以及解码器的输入值,对于编码器中的条件分布pθ(x(i)|z),式中参数θ的均值是μ',方差是σ'2,h'代表的是编码器的隐藏层,下式中W代表是权重矩阵而b1'到b3',代表编码器出现的均值、方差和隐藏层的偏置量,由于输入的图像是实值数据,所以μ'=Wh'+b1'σ'2=Wh'+b2'h'=tanh(Wz+b3')对于解码器中的条件分布qφ(z|x(i))式中参数φ的均值是μ,方差是σ2,h则是代表的是解码器的隐藏层,...

【专利技术属性】
技术研发人员:杨燕曾旭禹张晓博
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1