一种基于天鹰优化算法的长视频推荐方法技术

技术编号:33716421 阅读:19 留言:0更新日期:2022-06-06 09:00
本申请公开提供了一种基于天鹰优化算法的长视频推荐方法,包括:通过召回方式得到粗筛的推荐结果;将所述粗筛的推荐结果输入长视频推荐模型得到待推荐队列,所述长视频推荐模型是基于天鹰优化算法模型训练得到的;将所述待推荐队列存储至待播放列表,等待用户操作时推荐相应视频,解决了现有技术中,逻辑回归算法中Logistic回归系数,通常采用牛顿迭代法计算对数似然函数所得,牛顿迭代法在每次迭代中要重新计算海森矩阵,且在最优解附近的收敛速度急速下降的问题。度急速下降的问题。度急速下降的问题。

【技术实现步骤摘要】
一种基于天鹰优化算法的长视频推荐方法


[0001]本专利技术涉及个性化推荐
,具体涉及一种基于天鹰优化算法的长视频推荐方法。

技术介绍

[0002] 近年来,视频业务迅速发展,这种视频业务又被称为 0TT视频,是指基于互联网的视频服务,但是,0TT视频在长视频运营过程中存在人力投入大、运营效率低、用户体验差等问题,因此,实践中通过智能推荐系统对 0TT长视频进行智能运营,根据用户的历史观看视频的喜好推荐视频,做到个性化视频推送服务,以便提高用户体验。
[0003]在长视频个性化推荐实践中,系统首先须具备用户观影行为记录采集、存储和分析功能,通过算法模型从用户观影记录中挖掘用户可能偏好的影片,在现有的同类技术中主要是使用深度学习技术解决推荐算法模型的实现以及使用实时流技术应对用户观影记录数据的处理。
[0004]现有技术缺点:逻辑回归算法中Logistic 回归系数,通常采用 Newton 迭代法计算对数似然函数所得,Newton迭代法在每次迭代中要重新计算海森矩阵,且在最优解附近的收敛速度急速下降的问题;实时性场景不适配,长视频的侧重点在于内容,并且一次有效的播放时长一般以分钟为单位计时,对于推荐实时性要求不高,采用Flink实时流技术进行长视频信息处理不太合适,采用Spark配合Hive离线训练模型并存储推荐结果备用又过于僵化,无法灵活应对推荐场景的问题。

技术实现思路

[0005]因此,本专利技术要解决的技术问题在于克服现有技术中逻辑回归算法中Logistic 回归系数,通常采用牛顿迭代法计算对数似然函数所得,牛顿迭代法在每次迭代中要重新计算海森矩阵,且在最优解附近的收敛速度急速下降的问题,从而提供一种基于天鹰优化算法的长视频推荐方法。
[0006]为解决上述技术问题,本专利技术公开实施例至少提供一种基于天鹰优化算法的长视频推荐方法。
[0007]第一方面,本专利技术公开实施例提供了一种长视频推荐模型训练的方法,包括:根据播放记录数据生成用户属性特征、长视频属性特征和表征用户与长视频交互行为的评分表;根据所述表征用户与长视频交互行为的评分表生成标签数据;将所述用户属性特征、长视频属性特征和标签数据进行拼接,生成训练数据;利用所述训练数据对天鹰优化算法模型进行训练,得到长视频推荐模型。
[0008]可选地,所述交互行为包括:点赞、收藏、观看时长和观看次数;所述表征用户与长视频交互行为的评分表是按照以下方式生成的,包括:根据所述播放记录数据中的用户及其播放的长视频,组成用户

长视频对;
对于每个用户

长视频对,按照下式计算表征该用户与该长视频交互行为的评分值:其中,m表示是否点赞,n表示是否收藏,p表示观看时长,l表示该长视频的总时长,q表示观看次数,a、b、c、d为权重系数;根据对于每个用户

长视频对的评分值生成所述评分表。
[0009]可选地,所述权重系数随时间的推移而递减。
[0010]可选地,所述根据所述表征用户与长视频交互行为的评分表生成标签数据,包括:根据表征用户与长视频交互行为的评分表的评分值分布情况设置阈值;对于每个用户

长视频对,若评分值大于等于所述阈值,则生成标签数据1;若评分值小于所述阈值,则生成标签数据0。
[0011]可选地,所述将所述用户属性特征、长视频属性特征和标签数据进行拼接,生成训练数据,包括:将每个用户属性特征和长视频属性特征进行量化,得到特征量化值;对所述特征量化值进行独热编码处理,得到每个用户属性特征和长视频属性特征的独热编码值;对于每个用户

长视频对,将所述用户属性特征、长视频属性特征的独热编码值和标签数据顺序排列为一条二维记录,作为训练数据。
[0012]第二方面,本专利技术公开实施例还提供一种长视频推荐方法,包括:通过召回方式得到粗筛的推荐结果;将所述粗筛的推荐结果输入长视频推荐模型得到待推荐队列,所述长视频推荐模型是基于天鹰优化算法模型训练得到的;将所述待推荐队列存储至待播放列表,等待用户操作时推荐相应视频。
[0013]可选地,所述长视频推荐模型是根据第一方面中任一种可能的实施方式中的步骤训练得到的。
[0014]可选地,所述将所述粗筛的推荐结果输入长视频推荐模型得到待推荐队列,包括:将所述粗筛的推荐结果的长视频属性特征和待推荐用户的用户属性特征输入训练好的长视频推荐模型得到推荐评分,若所述推荐评分高于预设阈值,则将推荐结果放入待推荐队列,反之舍弃。
[0015]第三方面,本专利技术公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0016]第四方面,本专利技术公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0017]本专利技术的实施例提供的技术方案可以具有以下有益效果:通过召回方式得到粗筛的推荐结果;将所述粗筛的推荐结果输入长视频推荐模型得到待推荐队列,所述长视频推荐模型是基于天鹰优化算法模型训练得到的;将所述待推
荐队列存储至待播放列表,等待用户操作时推荐相应视频,本专利技术引入新型优化算法—天鹰优化器替代逻辑回归算法中Logistic 回归系数寻优计算中传统的海森矩阵计算方式,克服LR算法运算量巨大且效率低下,训练容易欠拟合等问题,并且通过Spark分布式计算组件对所述改进进行实现;离线训练推荐模型,线上加载模型并输入用户和影片特征,既避免了长视频场景下个性化推荐中不必要的实时性,又避免了完全离线式的隔夜预计算推荐结果方式的灵活性不足问题;针对自身信息较为丰富的长视频,以及在用户规模不太大、特征信息有限的情景下,采用改进的长视频推荐模型进行个性化推荐,可减少开发人力成本与维护成本。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0019]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1示出了本专利技术公开实施例所提供的一种长视频推荐模型训练方法的流程图;图2示出了本专利技术公开实施例所提供的一种长视频推荐方法的流程图;图3示出了本专利技术公开实施例所提供的另一种长视频推荐方法的流程图;图4示出了本专利技术公开实施例所提供的通过Azkaban调度时可视化图例示意图;图5示出了本专利技术公开实施例所提供的一种计算机设备的结构示意图。
具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长视频推荐模型训练方法,其特征在于,包括:根据播放记录数据生成用户属性特征、长视频属性特征和表征用户与长视频交互行为的评分表;根据所述表征用户与长视频交互行为的评分表生成标签数据;将所述用户属性特征、长视频属性特征和标签数据进行拼接,生成训练数据;利用所述训练数据对天鹰优化算法模型进行训练,得到长视频推荐模型。2.根据权利要求1所述的方法,其特征在于,所述交互行为包括:点赞、收藏、观看时长和观看次数;所述表征用户与长视频交互行为的评分表是按照以下方式生成的,包括:根据所述播放记录数据中的用户及其播放的长视频,组成用户

长视频对;对于每个用户

长视频对,按照下式计算表征该用户与该长视频交互行为的评分值:其中,m表示是否点赞,n表示是否收藏,p表示观看时长,l表示该长视频的总时长,q表示观看次数,a、b、c、d为权重系数;根据对于每个用户

长视频对的评分值生成所述评分表。3.根据权利要求2所述的方法,其特征在于,所述权重系数随时间的推移而递减。4.根据权利要求1所述的方法,其特征在于,所述根据所述表征用户与长视频交互行为的评分表生成标签数据,包括:根据表征用户与长视频交互行为的评分表的评分值分布情况设置阈值;对于每个用户

长视频对,若评分值大于等于所述阈值,则生成标签数据1;若评分值小于所述阈值,则生成标签数据0。5.根据权利要求1所述的方法,其特征在于,所述将所述用户属性特征、长视频属性特征和标签数据进行拼接,生成训练数据,包括:将每个用户属性特征和长视频属性特征进行量化,得到特征量化值;对所述特征量化值进行独热编码处理,得到每个用户属性...

【专利技术属性】
技术研发人员:张灵晶金灿
申请(专利权)人:深圳市华曦达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1