一种点击率预测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37345219 阅读:16 留言:0更新日期:2023-04-22 21:37
本申请公开了一种点击率预测方法、装置、设备及可读存储介质,涉及数据预测领域,包括:获取训练数据集,训练数据集包括用户的历史行为信息、用户的属性信息和视频信息;根据训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,初始点击率预估模型包括xDeepFM模型,xDeepFM模型包括DCN

【技术实现步骤摘要】
一种点击率预测方法、装置、设备及可读存储介质


[0001]本申请涉及数据预测领域,更具体地说,涉及一种点击率预测方法、装置、设备及可读存储介质。

技术介绍

[0002]点击率(Click

throughRate,CTR)预测在推荐系统和广告系统中都是最重要的组成模块,在视频推荐系统中,其目标是最大化点击次数,在返回给用户的界面上,被推荐的视频的顺序应该根据CTR预测进行排名。所以,正确预测CTR至关重要。
[0003]xDeepFM模型是CTR预测任务的经典模型,xDeepFM中的CIN网络,从属于Wide端,对embedding得到的嵌入特征信息进行高阶显式交互。但其进行显性特征的二阶交叉的层级主要基于特征向量级别(vector

wise)的视角,这样的好处是意识到了向量场层面上的抽象意义,具有一定的泛化能力。但是缺点也同样明显,那就是丢失了特征信息内部元素的交互信息,进而丧失了对特征信息内部元素级细节的抽取能力。联合特征信息的丢失导致特征提取能力的下降,进而致使后续的xDeepFM模型性能的下降,最终导致通过xDeepFM模型进行点击率预测时的准确性下降。

技术实现思路

[0004]使得基于初始点击率预估模型训练得到的点击率预估模型对待预测视频进行点击率预测时的准确性大大增加。
[0005]有鉴于此,本申请实施例提供了一种点击率预测方法,包括:获取训练数据集,所述训练数据集包括用户的历史行为信息、用户的属性信息和视频信息;根据所述训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,所述初始点击率预估模型包括xDeepFM模型,所述xDeepFM模型包括DCN

v2网络;根据所述点击率预估模型对待预测视频进行预测,得到所述待预测视频的预测结果。
[0006]可选地,所述根据所述训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,包括:将所述训练数据集转化为高阶特征向量,所述高阶特征向量包括第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量、第一复合特征向量和第二复合特征向量;将所述第一复合特征向量输入所述xDeepFM模型中的CIN层中训练,得到第一输出结果;将所述第二复合特征向量输入所述xDeepFM模型中的DNN层中训练,得到第二输出结果;将所述第一复合特征向量输入所述xDeepFM模型中的DCN

v2网络中训练,得到第
三输出结果;将所述第一高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第四输出结果;将所述第二高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第五输出结果;所述第三高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第六输出结果;根据激活函数、所述第一输出结果、所述第二输出结果、所述第三输出结果、第四输出结果、第五输出结果和第六输出结果得到点击率预估模型。
[0007]可选地,所述将所述训练数据集转化为高阶特征向量,包括:对所述训练数据集进行数据预处理,得到低阶特征向量;对所述低阶特征向量进行压缩,得到高阶稀疏特征向量;对所述高阶稀疏特征向量进行复制,得到第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量,所述第一高阶稀疏特征向量与所述第二高阶稀疏特征向量相同,所述第二高阶稀疏特征向量与所述第三高阶稀疏特征向量相同;将所述第一高阶稀疏特征向量和所述第二高阶稀疏特征向量进行拼接,得到第一复合特征向量;将所述第二高阶稀疏特征向量和所述第三高阶稀疏特征向量拼接,得到第二复合特征向量。
[0008]可选地,所述将所述第一复合特征向量输入所述xDeepFM模型中的DCN

v2网络中训练,得到第三输出结果,包括:将所述第一复合特征向量输入至DCN

v2网络中的cross层进行训练,得到第七输出结果;将所述第一复合特征向量输入至DCN

v2网络中的deep层进行训练,得到第八输出结果;对所述第七输出结果和第八输出结果进行拼接,得到第三输出结果。
[0009]本申请实施例还提供了一种点击率预测装置,包括:获取单元,用于获取训练数据集,所述训练数据集包括用户的历史行为信息、用户的属性信息和视频信息;训练单元,用于根据所述训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,所述初始点击率预估模型包括xDeepFM模型,所述xDeepFM模型包括DCN

v2网络;预测单元,用于根据所述点击率预估模型对待预测视频进行预测,得到所述待预测视频的预测结果。
[0010]可选地,所述训练单元,具体用于:将所述训练数据集转化为高阶特征向量,所述高阶特征向量包括第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量、第一复合特征向量和第二复合特征向量;将所述第一复合特征向量输入所述xDeepFM模型中的CIN层中训练,得到第一输出
结果;将所述第二复合特征向量输入所述xDeepFM模型中的DNN层中训练,得到第二输出结果;将所述第一复合特征向量输入所述xDeepFM模型中的DCN

v2网络中训练,得到第三输出结果;将所述第一高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第四输出结果;将所述第二高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第五输出结果;所述第三高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第六输出结果;根据激活函数、所述第一输出结果、所述第二输出结果、所述第三输出结果、第四输出结果、第五输出结果和第六输出结果得到点击率预估模型。
[0011]可选地,所述训练单元,具体用于:对所述训练数据集进行数据预处理,得到低阶特征向量;对所述低阶特征向量进行压缩,得到高阶稀疏特征向量;对所述高阶稀疏特征向量进行复制,得到第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量,所述第一高阶稀疏特征向量与所述第二高阶稀疏特征向量相同,所述第二高阶稀疏特征向量与所述第三高阶稀疏特征向量相同;将所述第一高阶稀疏特征向量和所述第二高阶稀疏特征向量进行拼接,得到第一复合特征向量;将所述第二高阶稀疏特征向量和所述第三高阶稀疏特征向量拼接,得到第二复合特征向量。
[0012]可选地,所述训练单元,具体用于:将所述第一复合特征向量输入至DCN

v2网络中的cross层进行训练,得到第七输出结果;将所述第一复合特征向量输入至DCN

v2网络中的deep层进行训练,得到第八输出结果;对所述第七输出结果和第八输出结果进行拼接,得到第三输出结果。
[0013]本申请实施例还提供了一种计算机设备,包括:存储器、处理器以及总线系统;其中,所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,以实现上述所述的任意一种点击率预测方法;所述总线系统用于连接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种点击率预测方法,其特征在于,所述方法包括:获取训练数据集,所述训练数据集包括用户的历史行为信息、用户的属性信息和视频信息;根据所述训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,所述初始点击率预估模型包括xDeepFM模型,所述xDeepFM模型包括DCN

v2网络;根据所述点击率预估模型对待预测视频进行预测,得到所述待预测视频的预测结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据集对初始点击率预估模型进行训练,得到点击率预估模型,包括:将所述训练数据集转化为高阶特征向量,所述高阶特征向量包括第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量、第一复合特征向量和第二复合特征向量;将所述第一复合特征向量输入所述xDeepFM模型中的CIN层中训练,得到第一输出结果;将所述第二复合特征向量输入所述xDeepFM模型中的DNN层中训练,得到第二输出结果;将所述第一复合特征向量输入所述xDeepFM模型中的DCN

v2网络中训练,得到第三输出结果;将所述第一高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第四输出结果;将所述第二高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第五输出结果;所述第三高阶稀疏特征向量输入所述xDeepFM模型中的线性变换网络中训练,得到第六输出结果;根据激活函数、所述第一输出结果、所述第二输出结果、所述第三输出结果、第四输出结果、第五输出结果和第六输出结果得到点击率预估模型。3.根据权利要求2所述的方法,其特征在于,所述将所述训练数据集转化为高阶特征向量,包括:对所述训练数据集进行数据预处理,得到低阶特征向量;对所述低阶特征向量进行压缩,得到高阶稀疏特征向量;对所述高阶稀疏特征向量进行复制,得到第一高阶稀疏特征向量、第二高阶稀疏特征向量和第三高阶稀疏特征向量,所述第一高阶稀疏特征向量与所述第二高阶稀疏特征向量相同,所述第二高阶稀疏特征向量与所述第三高阶稀疏特征向量相同;将所述第一高阶稀疏特征向量和所述第二高阶稀疏特征向量进行拼接,得到第一复合特征向量;将所述第二高阶稀疏特征向量和所述第三高阶稀疏特征向量拼接,得到第二复合特征向量。4.根据权利要求2所述的方法,其特征在于,所述将所述第一复合特征向量输入所述xDeepFM模型中的DCN

v2网络中训练,得到第三输出结果,包括:将所述第一复合特征向量输入至DCN

v2网络中的cross层进行训练,得到第七输出结
果;将所述第一复合特征向量输入至DCN

v2网络中的deep层进行训练,得到第八输出结果;对所述第七输出结果和第八输出结果进行拼接,得到第三输出结果。5.一种点击率预测装置,其特征在于,所述装置包括:获取单元,用于获取训练数据集,所述训练数据集包括用户的历史行为信息、用户的属性...

【专利技术属性】
技术研发人员:王龙滔蔡振宇刘柯可纪承张智慧王宜鸣
申请(专利权)人:北京搜狐新动力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1