一种影视推荐候选集的排序系统及方法技术方案

技术编号:26031655 阅读:33 留言:0更新日期:2020-10-23 21:09
本发明专利技术公开了一种影视推荐候选集的排序系统,包括数据获取模块,用于数据的获取;数据预处理模块,用于数据的预处理操作,包含但不限于对历史观看数据中的观影时长进行时间衰减;特征构建模块,用于构建特征,并生成训练集;编码模块,用于对训练集进行编码;训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到GBM模型;排序模块,用于对影视推荐候选集的影片进行预测排序。同时,还公开了一种影视推荐候选集的排序方法,将观影时长进行时间衰减,并通过迭代训练建立GBM模型对影视推荐候选集进行智能排序,有效地提高了影视推荐的精准度,保证了影视推荐候选集的排序系统及方法的可信度,以及用户的使用体验度。

【技术实现步骤摘要】
一种影视推荐候选集的排序系统及方法
本专利技术涉及影视的个性化推荐
,特别涉及一种影视推荐候选集的排序系统及方法。
技术介绍
随着人工智能与大数据的迅猛发展,计算机能够从用户的操作记录中进行学习,从海量的影片中选出用户可能感兴趣的影片推荐给用户。然而,用户并不可能对这些影片都感兴趣,因此,需要对这些影片进行有效的排序,将用户可能进行操作的影片排在前面。因此如何正确地对选出的影片进行排序推荐是急需解决的问题。目前的排序方法,通常直接采用推荐算法计算出的得分进行排序。例如,根据协同过滤算法计算出来的兴趣度对候选集进行排序,通过此方法进行排序的优点是逻辑简单,排序费时较少。但此方法并不能准确的将候选集中用户可能操作的影片排在前面。随着业务的多元化,用户特征愈加复杂,此方法对复杂的业务场景和用户特征的适应性较差,已不适应新的业务场景和愈加复杂的业务特征。因此,需要一种能够适应复杂特征的候选集排序方法来提升用户影片推荐的精确度。
技术实现思路
为解决现有技术中存在的问题,本专利技术的目的是提供一种影视推荐候选集的排序系统及方法,将时间衰减加入GBM模型中,对推荐候选集中的影片进行排序,将用户可能观看的影片排在前面,提高推荐内容的准确性。为实现上述目的,本专利技术采用的技术方案是:一种影视推荐候选集的排序系统,包括数据获取模块,用于数据的获取;数据预处理模块,用于数据的预处理操作,包含但不限于对历史观看数据中的观影时长进行时间衰减;特征构建模块,用于构建特征,并生成训练集;编码模块,用于对训练集进行编码;训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到GBM模型;排序模块,用于对候选集的影片进行预测排序。一种影视推荐候选集的排序方法,包括以下步骤:步骤一、获取数据,从数据库中获取用户信息、影视信息以及观影记录;步骤二、数据预处理,并对观影记录的观影时长进行时间衰减,得到衰减后的观影时长;步骤三、构建特征,得到训练集;步骤四、对训练集进行编码;步骤五:通过迭代训练建立GBM模型;步骤六:通过GBM模型进行预测,利用预测结果对候选集中的影片进行排序。进一步地,所述数据预处理包括将用户信息中包含缺失字段的信息进行删除;将影视信息中时长为0的影视统一修改为该字段正常数据的均值,将其他字段有丢失的信息进行删除;将观影记录中观影时间不合逻辑的观影记录进行删除。进一步地,所述时间衰减公式为:N=N0e-α(△T),其中N为衰减后的观影时长,N0为衰减前的观影时长,e为常数,α为衰减系数,△T为当前时间与观影时间之间的差值。进一步地,所述构建特征包括用户特征、影视特征和统计类特征。进一步地,所述统计类特征包括用户每月观影数量、用户每月观影的平均进度、影视每月播放次数和影视每月播放的平均进度。进一步地,所述对训练集进行编码为将类别特征从1开始进行编码,并将映射关系导出到数据库中进行存储,以便在下次编码时保证映射关系的唯一性。进一步地,所述对训练集进行编码还包括构建一个观影时长/影片总长的字段,作为用户观看某部影片的进度。本专利技术的有益效果是:本专利技术通过将观影时长进行时间衰减,并通过迭代训练建立GBM模型对影视推荐候选集进行智能排序,耗时较少,有效地提高了影视推荐的精准度,保证了影视推荐候选集的排序系统及方法的可信度,以及用户的使用体验度。附图说明图1为本专利技术实施例的影视推荐候选集的排序系统示例图。图2为本专利技术实施例的影视推荐候选集的排序方法流程图。图3为本专利技术实施例的训练样本取样流程图。具体实施方式以下描述用于揭露本专利技术以使相关领域技术人员能够实现本专利技术。以下描述中的实施例只作为举例,相关领域技术人员可以想到其他显而易见的变型均属于本专利技术的保护范围。在其中一个实施例中,如图1所示,本专利技术提供一种影视推荐候选集的排序系统,包括:数据获取模块,用于获取影视推荐候选集中的数据。数据预处理模块,用于数据的预处理操作,包含但不限于对历史观看数据中的观影时长进行衰减。特征构建模块,用于构建特征,将特征附加到影视推荐候选集上,生成训练集。编码模块,用于对训练集进行编码。训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到GBM模型,通过GBM模型对用户的行为进行预测。排序模块,用于对影视推荐候选集的影片进行预测排序。在另一个实施例中,如图2所示,本专利技术还提供一种基于梯度提升与时间衰减的影视推荐候选集的排序方法,首先对过去一段时间内的用户观影数据进行训练集与特征的构建,并在观影时长中加入时间衰减,将得到的训练集进行迭代训练得到GBM模型(GradientBoostingMachine,梯度提升树算法),使用该模型预测用户观看影视的概率,通过概率的大小对影视推荐候选集进行排序。将用户可能观看的影片排在前面,提高推荐排序的准确率。一种影视推荐候选集的排序方法,具体包括以下步骤:步骤一、获取数据,从影视推荐候选集中获取用户信息、影视信息以及观影记录;从影视推荐候选集中获取用户近三个月的用户信息、影视信息和观影记录,所述用户信息包括用户ID、用户设备信息、用户VIP状态和用户所在地区等信息;所述影视信息包括影片ID、导演、演员、所属地区、上映日期、资源方、收费信息、时长、类型和评分等信息;所述观影记录包括用户ID、影片ID、观看时间和观影时长等信息。步骤二、数据预处理,通过遍历方式,对获取的数据进行预处理,得到预处理后的数据;并对观影记录的观影时长进行时间衰减,得到衰减后的观影时长;对用户信息、影视信息和观影记录进行预处理,所述预处理包括将用户信息中包含缺失字段的信息进行删除;将影视信息中时长为0的影视统一修改为该字段正常数据的均值,将其他字段有丢失的信息进行删除;将观影记录中观影时间不合逻辑的观影记录进行删除;并对观影记录的观影时长进行时间衰减,得到衰减后的观影时长。所述时间衰减公式为:其中N为衰减后的观影时长,N0为衰减前的观影时长,单位为秒,e为常数,α为衰减系数(大于0),△T为当前时间与观影时间之间的差值,单位为天数,将值带入公式1则可得到衰减过后的影视时长N。例如,当衰减前的观影时长N0为5400秒,时间差值△T为90天,衰减系数α为0.0045时,带入式1中可得出衰减后的观影时长N为3600秒。步骤三、构建特征,得到训练集;根据预处理后的用户信息、影视信息和观影记录生成特征,所述特征为在机器学习过程中所需要学习的维度,包括用户特征、影视特征、统计类特征和其他特征;所述用户特征为根据用户信息直接得到的用户VIP、用户设备信息、用户所属省份等。所述影视特征为根据影视信息得到影视ID、影视所属地区、影视类型、导演、演员、评分、收费信息、电影年龄等。所述统计类特征本文档来自技高网...

【技术保护点】
1.一种影视推荐候选集的排序系统,其特征在于,包括/n数据获取模块,用于数据的获取;/n数据预处理模块,用于数据的预处理操作,包含但不限于对历史观看数据中的观影时长进行时间衰减;/n特征构建模块,用于构建特征,并生成训练集;/n编码模块,用于对训练集进行编码;/n训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到GBM模型;/n排序模块,用于对候选集中的影片进行预测排序。/n

【技术特征摘要】
1.一种影视推荐候选集的排序系统,其特征在于,包括
数据获取模块,用于数据的获取;
数据预处理模块,用于数据的预处理操作,包含但不限于对历史观看数据中的观影时长进行时间衰减;
特征构建模块,用于构建特征,并生成训练集;
编码模块,用于对训练集进行编码;
训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到GBM模型;
排序模块,用于对候选集中的影片进行预测排序。


2.一种影视推荐候选集的排序方法,其特征在于,包括以下步骤:
步骤一、获取数据,从数据库中获取用户信息、影视信息以及观影记录;
步骤二、数据预处理,并对观影记录的观影时长进行时间衰减,得到衰减后的观影时长;
步骤三、构建特征,得到训练集;
步骤四、对训练集进行编码;
步骤五:通过迭代训练建立GBM模型;
步骤六:通过GBM模型进行预测,利用预测结果对候选集中的影片进行排序。


3.根据权利要求2所述影视推荐候选集的排序方法,其特征在于,所述数据预处理包括将用户信息中包含缺失字段的信息进行删除;将影视信息中时长为0的影视统一修...

【专利技术属性】
技术研发人员:马荣深吴上波
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1