一种基于自编码器的电影推荐方法技术

技术编号:35098465 阅读:36 留言:0更新日期:2022-10-01 17:03
本发明专利技术公开了一种基于自编码器的电影推荐方法,包括步骤S1:从互联网上公开的数据集中获取用户信息、电影信息和用户对电影的评分数据;步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,将信息划分为深层信息与浅层信息并保证每条数据占用适量的内存;步骤S3:对用户与电影的特征进行编码,将特征向量转化为特征值嵌入到评分矩阵中作为自编码器的输入数据;步骤S4:预设参数并对自编码器进行训练,通过得出的结果计算RMSE评价和MAE评价,利用结果反馈对参数进行调整并再次训练;在数据集中加入随机噪音,设置不同噪音率并基于RMSE评价的基础上进行比对,选择并确定最优噪音率;步骤S5:输出数据并依据预测评分进行top

【技术实现步骤摘要】
一种基于自编码器的电影推荐方法


[0001]本专利技术涉及自编码器、推荐系统领域,特别涉及一种基于自编码器的电影推荐方法。

技术介绍

[0002]随着互联网的迅猛发展,大数据引起了越来越多的关注,面对海量的数据,如何更高效、更准确的将信息推荐给目标人群是必须要解决的一个难题,推荐系统在这种情况下应运而生。个性化的推荐系统从众多的数据与用户中提取特征,并对数据与用户进行分类,依据用户的行为日志分析用户的需求,将对应的内容推荐给用户。推荐系统能够为各种客户端提供更灵活、更方便的服务,实现“所得即所想”的概念。
[0003]基于协同过滤的推荐算法是传统推荐系统中应用较为广泛的算法之一。通过计算用户之间、推荐信息之间的特征与相似度进行推荐。自编码器技术是一种常用的深度学习神经网络模型。利用自编码器,可以将推荐系统中更复杂的高位数据纳入考虑,有效缓解传统协同过滤中存在的数据稀疏性、用户与推荐信息冷启动的问题。

技术实现思路

[0004]为了克服现有技术中的不足,本专利技术提供一种基于自编码器的电影推荐方法,能够解决评分矩阵稀疏性的问题。
[0005]为了达到上述专利技术目的,解决其技术问题所采用的技术方案如下:
[0006]一种基于自编码器的电影推荐方法,包括有以下步骤:
[0007]步骤S1:从互联网上公开的数据集中获取用户的信息、电影的信息以及用户对电影的评分数据;
[0008]步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,并将信息划分为深层信息与浅层信息,并保证每条数据占用适量的内存;
[0009]步骤S3:对用户与电影的特征进行编码,将特征向量转化为特征值嵌入到评分矩阵中作为自编码器的输入数据;
[0010]步骤S4:预设参数并对自编码器进行训练,通过得出的结果计算RMSE评价以及MAE评价,利用结果反馈对参数进行调整并再次训练,以提升模型的准确度;参数包括学习率、隐藏层层数、隐藏层结构;在数据集中加入随机噪音,设置不同噪音率并基于RMSE评价的基础上进行比对,选择并确定最优噪音率以提升模型的鲁棒性;
[0011]步骤S5:输出数据,并依据预测评分进行top

n电影推荐。
[0012]进一步的,步骤S3包括以下内容:
[0013]将用户与电影的信息分别划分为浅层信息与深层信息,并分别输入不同的自编码器进行处理;
[0014]用户的浅层信息包括用户ID、用户性别、用户年龄段和用户职业,其中,用户的年龄按年龄段划分区间类别,用户职业按照不同的职业类型划分,年龄与职业的字段均以编
码形式存储;
[0015]电影的浅层信息包括电影ID、电影名称、电影类型,其中,电影类型按照不同的电影大类别划分,电影类型以编码的形式进行存储;
[0016]深层信息则包括用户对电影评论的关键字的提取,依据评论中用户的评论倾向分析用户对电影的实际满意程度,并打分。
[0017]进一步的,定义包括用户性别、用户年龄段和用户职业的用户文本类型数据为定义包括电影名称、电影类型的项目文本类型数据为则浅层信息可表示为:
[0018][0019]其中,n表示用户的数量,m表示项目的数量,表示用户数字信息,表示项目数字信息;
[0020]定义在用户对电影评论中提取的文本类型数据为则深层信息可表示为:
[0021][0022]在进行数据预处理时,对属性为数字类型的数据,仅做补充数位的处理,使得数字类型的数据位数统一;对属性为文本类型的数据,则将文本字符串转化为数字向量的形式,使得用户的属性信息转化为统一长度的数字向量,便于嵌入层的读取,神经网络嵌入层的最主要作用是降维,同时也能获取数据间一定的关联性,文本类型数据的向量化处理如下所示:
[0023][0024]在进行数据预处理时,需要补充数位使属性相同的数据长度统一。
[0025]进一步的,步骤S4包括以下内容:
[0026]确定深度降噪自编码器的模型结构;
[0027]结合现实实验条件与数据集大小设置隐藏层层数,依据训练评价反馈进行调整,避免隐藏层层数太低造成的学习不足问题与隐藏层层数太高造成的过拟合问题;
[0028]设置初始学习率、正则化参数与激活函数等的参数,并依据训练评价反馈进行调整;
[0029]在用户浅层信息、电影浅层信息以及深层信息中分别加入遮蔽噪音,将部分数据按照比例随机的置为0,依据反馈的训练评价对噪音比例进行调整;
[0030]设置平衡因子α与β,使得通过平衡因子控制的预测比重得到的综合预测评分通过下述式进行计算:
[0031]Q=αQ
i
+βQ
u
+(1

α

β)Q
d
[0032]其中,Q为综合预测的评分,Q
i
为通过电影浅层信息预测所得评分,Q
u
为通过用户浅层信息预测所得评分,Q
d
为通过深层信息预测所得评分,且0≤α+β≤1。
[0033]本专利技术由于采用以上技术方案,使之与现有技术相比,具有以下的优点和积极效果:
[0034]本专利技术公开了一种基于自编码器的电影推荐方法,通过算法实现对电影以及用户的筛选分类,并根据用户的评分与兴趣将不同的电影推荐给不同的用户。首先需要对用户与项目的信息进行浅层信息与深层信息的划分,并分别进行处理,其次,利用预处理后的数
据对自编码器进行训练,实现针对不同兴趣用户的不同电影的推荐。通过上述方式,有效提高目前推荐系统的推荐准确度。
附图说明
[0035]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
[0036]图1是本专利技术一种基于自编码器的电影推荐方法的流程示意图;
[0037]图2是本专利技术一种基于自编码器的电影推荐方法中自编码器的结构图。
具体实施方式
[0038]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]如图1所示,本实施例公开了一种基于自编码器的电影推荐方法,包括有以下步骤:
[0040]步骤S1:从互联网上公开的数据集中获取用户的信息、电影的信息以及用户对电影的评分数据,包括但不限于用户的年龄、职业;电影的分类以及评分的数值和用户对电影的评论;
[0041]步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,并将信息划分为深层信息与浅层信息,并保证每条数据占用适量的内存,同时包含的数据也尽量齐全;...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器的电影推荐方法,其特征在于,包括有以下步骤:步骤S1:从互联网上公开的数据集中获取用户的信息、电影的信息以及用户对电影的评分数据;步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,并将信息划分为深层信息与浅层信息,并保证每条数据占用适量的内存;步骤S3:对用户与电影的特征进行编码,将特征向量转化为特征值嵌入到评分矩阵中作为自编码器的输入数据;步骤S4:预设参数并对自编码器进行训练,通过得出的结果计算RMSE评价以及MAE评价,利用结果反馈对参数进行调整并再次训练,以提升模型的准确度;参数包括学习率、隐藏层层数、隐藏层结构;在数据集中加入随机噪音,设置不同噪音率并基于RMSE评价的基础上进行比对,选择并确定最优噪音率以提升模型的鲁棒性;步骤S5:输出数据,并依据预测评分进行top

n电影推荐。2.根据权利要求1所述的一种基于自编码器的电影推荐方法,其特征在于,步骤S3包括以下内容:将用户与电影的信息分别划分为浅层信息与深层信息,并分别输入不同的自编码器进行处理;用户的浅层信息包括用户ID、用户性别、用户年龄段和用户职业,其中,用户的年龄按年龄段划分区间类别,用户职业按照不同的职业类型划分,年龄与职业的字段均以编码形式存储;电影的浅层信息包括电影ID、电影名称、电影类型,其中,电影类型按照不同的电影大类别划分,电影类型以编码的形式进行存储;深层信息则包括用户对电影评论的关键字的提取,依据评论中用户的评论倾向分析用户对电影的实际满意程度,并打分。3.根据权利要求2所述的一种基于自编码器的电影推荐方法,其特征在于,定义包括用户性别、用户年龄段和用户职业的用户文本类型数据为定义包括电影名称、电影类型的项目文本类型数据为则浅层信息可表示...

【专利技术属性】
技术研发人员:于万钧杨卉
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1