基于电影字幕信息提升电影推荐系统性能的方法技术方案

技术编号:21399072 阅读:42 留言:0更新日期:2019-06-19 07:01
本发明专利技术公开了基于电影字幕信息提升电影推荐系统性能的方法,该方法的步骤如下:步骤(1)获取电影推荐数据集MovieLens‑Latest;步骤(2)建立字幕数据集;步骤(3)字幕主题提取;步骤(4)推荐模型训练;步骤(5)电影评分预测本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的推荐系统性能提升明显。

【技术实现步骤摘要】
基于电影字幕信息提升电影推荐系统性能的方法
本专利技术涉及一种基于矩阵分解的新型电影推荐方法,属于互联网推荐系统

技术介绍
个性化推荐系统作为数据挖掘的应用之一,在购物网站、新闻、电影音乐等领域被广泛的应用,是解决信息过载、增加用户忠诚度的有效解决办法之一。由于电影推荐的历史数据集较为完善,标签明确,实验结果好量化,一直是研究和改进推荐系统常用的数据集。典型的电影评分数据集(如图1所示),每个数字代表用户对相应的电影打分,一般是1到5分制。由于电影数据是矩阵的形式,常用的方法就是矩阵分解比如SVD算法,将高维矩阵分解为两个低维矩阵,这样当使用两个低维矩阵相乘还原高维矩阵的时候,就会对空缺部位进行填充,达到了一个预测评分的目的(如图2所示)。推荐系统性能主要受限于评分矩阵的稀疏性以及冷启动问题。
技术实现思路
本专利技术的目的在于提出了一种基于电影字幕信息来提升电影推荐系统性能的方法,本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的本文档来自技高网...

【技术保护点】
1.基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:该方法的时间步骤如下,步骤(1)获取电影推荐数据集MovieLens‑Latest获取电影推荐数据集MovieLens‑Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理;步骤(2)建立字幕数据集依托Movielens‑Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对;步骤(3)字幕主题提取将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布;步骤...

【技术特征摘要】
1.基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:该方法的时间步骤如下,步骤(1)获取电影推荐数据集MovieLens-Latest获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理;步骤(2)建立字幕数据集依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对;步骤(3)字幕主题提取将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布;步骤(4)推荐模型训练步骤(5)电影评分预测使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主体分本topici,然后就可以使用评分预测公式预测用户对该电影的评分了。2.根据权利要求1所述的基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:字幕主题提取的算法描述如下:1)选择合适的主题数K,选择合适的超参数向量α,η;2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号;4)...

【专利技术属性】
技术研发人员:李璐璞于海阳杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1