一种基于动态深度注意力模型的点击率预测方法技术

技术编号:28978981 阅读:13 留言:0更新日期:2021-06-23 09:25
本发明专利技术公开了一种基于动态深度注意力模型的点击率预测方法,包括以下步骤:S1、在客户端获取用户对推荐项目点击的多个原始数据组;S2、对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;S3、将多类别的特征数据输入输入层,得到高维稀疏向量;S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;S5、通过维数转换层将低维向量数据转换为标准维度向量数据;S6、通过交互层提取标准维度向量数据的高阶特征交互数据;S7、根据高阶特征交互数据,通过输出层计算点击率预测结果;本发明专利技术解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。

【技术实现步骤摘要】
一种基于动态深度注意力模型的点击率预测方法
本专利技术涉及信息投放领域,具体涉及一种基于动态深度注意力模型的点击率预测方法。
技术介绍
对于大多数互联网公司,例如Google,Amazon和Facebook,推荐系统都是必不可少的。点击率(CTR)预测在推荐系统中起着至关重要的作用,该系统的任务是预测用户点击推荐项目(如广告,音乐或电影)的可能性。预测的性能对两个方面都有重要影响。一方面,它直接决定了商业提供者的最终收入。另一方面,它影响用户体验,这对公司的长期发展具有重要意义。由于其卓越的作用,它引起了人们对研究和工业的越来越多的兴趣。机器学习最近在点击率预测中发挥了关键作用。众所周知,特征工程通常被认为是成功完成机器学习任务的关键之一。除了使用原始特征之外,对原始特征进行有效转换以提高预测模型的性能通常也很重要。交叉特征是特征变换的主要类型,稀疏原始特征相乘来形成新特征。例如,向20至30岁的女性推荐玫瑰金iPhone是合理的。但是,要找到这种有意义的组合功能,很大程度上取决于领域专家。而且,几乎不可能手动进行所有有意义的组合。为了解决这个问题,现有提出了因式分解机(FM)来建模特征相互作用,并已被证明可用于各种任务。但是,由于其多项式拟合时间的限制,它通常适合于对低阶特征交互进行建模,而对于捕获高阶特征交互则不切实际。为了对高阶特征交互进行建模,已经提出了许多基于深度神经网络(DNN)的工作。这些模型更具表现力,并且可以探索大多数特征相互作用。最近的研究表明,当目标是大量不相关函数的集合时,DNN存在梯度不敏感的问题。简单的DNN模型很难找到合适的特征交互。因此,已经提出了一些复杂的体系结构,例如神经因子分解机(NFM)和CIN。然而,事实证明,全连接神经网络在学习乘法特征交互作用方面是低效的,并且这些模型只是在枚举所有特征相互作用。显然,不同的特征对目标任务的重要性不同。例如,电影的主角对观众的影响要大于配角。因此,为了获得更好的结果,模型需要更多地关注有用的特征交互。通常的想法是,某些重要数据可能需要更多的计算才能产生可靠的结果,而一些简单或不重要的数据可能需要更少的计算。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于动态深度注意力模型的点击率预测方法解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于动态深度注意力模型的点击率预测方法,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:S1、在客户端获取用户对推荐项目点击的多个原始数据组;S2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;S3、将多类别的特征数据输入输入层,得到高维稀疏向量;S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;S5、通过维数转换层将低维向量数据转换为标准维度向量数据;S6、通过交互层提取标准维度向量数据的高阶特征交互数据;S7、根据高阶特征交互数据,通过输出层计算点击率预测结果。进一步地,步骤S1中每个所述原始数据组包括:用户数据、推荐项目数据和是否点击。进一步地,步骤S3中输入层的输出为高维稀疏向量x,x=[x1,…,xi,…,xM],其中,xi为第i类特征数据,M为特征类别个数。进一步地,步骤S4中嵌入层的输入输出关系式为:E=[e1,…,ei,…,eM]ei=Vixi其中,E为嵌入层输出的低维向量数据,为嵌入矩阵,为实数域,de为嵌入层的维度,ni为第i类特征可取的值的数量,ei为嵌入层输出的第i个低维向量。进一步地,步骤S5中维数转换层对第i个低维向量进行维度转换的公式为:ai=WAei+b其中,ai为标准维度向量数据,WA为维数转换层的权重矩阵,dmodel为每个特征类别的维度,b为偏置。进一步地,步骤S6中交互层包括多个子层,每个所述子层包括:多头自注意力单元和Add&Norm单元;所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入Add&Norm单元的输入端中;所述多头自注意力单元的输入端作为子层的输入端;所述Add&Norm单元的输出端作为子层的输出端。进一步地,多头自注意力单元的输入输出的关系式为:其中,为第1个子层中多头自注意力单元的输入,第一个子层中多头自注意力单元的输出,Concat()表示将结果连在一起,WO为联结参数矩阵,h为头数,dv为值的维度,headi为第i个头的计算结果,WiQ为查询参数矩阵,dk为键的维度,WiK为键参数矩阵,WiV为值参数矩阵。上述进一步方案的有益效果为:数据存在多个特征域,获取有效的特征组合需要捕获长距离特征,传统的CNN捕获方式依赖于卷积核能够覆盖的最大长度,捕获能力很差,而RNN方式有序列依赖的特性,在并行计算方面有严重的缺陷,本专利技术采用多头自注意力网络可以高效的捕获有效的特征组合以获得更好的预测效果。进一步地,Add&Norm单元输入输出的关系式为:其中,为Add&Norm单元的输出,LayerNorm()为归一化函数,为多头自注意力单元的输入,为多头自注意力单元的输出。进一步地,交互层对标准维度向量数据ai构建的特征类别的状态矩阵X进行处理的方法包括以下步骤:A1、在计算机系统中输入状态矩阵X、子层数组subs[]、子层总层数L和标量阈值thr;A2、设定特征类别的停止概率halt_pro、特征类别的更新权重remain、特征类别的更新次数n_up、特征类别的状态state和子层l的初值;A3、判断特征类别的停止概率halt_pro是否小于标量阈值thr,且特征类别的更新次数n_up小于子层总层数L,若是,则跳转至步骤A4,若否,则跳转至步骤A14;A4、根据状态矩阵X,采用sigmoid函数计算概率因子p,p=σ(MLP(X)),其中,σ()为sigmoid函数,MLP()为多层感知机;A5、获取当前子层的需更新的特征类别run:run=halt_pro,且将特征类别的更新次数n_up进行更新:特征类别的更新次数n_up自加特征类别run;A6、获取当前子层的不会更新的特征类别new_halted,其计算公式为:new_halted=[(halt_pro+p×run)>thr]×runA7、获取在下一子层中仍需更新的特征类别no_halted,其计算公式为:no_halted=[(halt_pro+p×run)≤thr]×runA8、对特征类别的停止概率halt_pro进行赋值更新,其计算公式为:halt_pro←halt_pro+p×no_halted<本文档来自技高网
...

【技术保护点】
1.一种基于动态深度注意力模型的点击率预测方法,其特征在于,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:/nS1、在客户端获取用户对推荐项目点击的多个原始数据组;/nS2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;/nS3、将多类别的特征数据输入输入层,得到高维稀疏向量;/nS4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;/nS5、通过维数转换层将低维向量数据转换为标准维度向量数据;/nS6、通过交互层提取标准维度向量数据的高阶特征交互数据;/nS7、根据高阶特征交互数据,通过输出层计算点击率预测结果。/n

【技术特征摘要】
1.一种基于动态深度注意力模型的点击率预测方法,其特征在于,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:
S1、在客户端获取用户对推荐项目点击的多个原始数据组;
S2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;
S3、将多类别的特征数据输入输入层,得到高维稀疏向量;
S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;
S5、通过维数转换层将低维向量数据转换为标准维度向量数据;
S6、通过交互层提取标准维度向量数据的高阶特征交互数据;
S7、根据高阶特征交互数据,通过输出层计算点击率预测结果。


2.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法,其特征在于,步骤S1中每个所述原始数据组包括:用户数据、推荐项目数据和是否点击。


3.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S3中输入层的输出为高维稀疏向量x,x=[x1,...,xi,...,xM],其中,xi为第i类特征数据,M为特征类别个数。


4.根据权利要求3所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S4中嵌入层的输入输出关系式为:
E=[e1,...,ei,...,eM]
ei=Vixi
其中,E为嵌入层输出的低维向量数据,为嵌入矩阵,为实数域,de为嵌入层的维度,ni为第i类特征可取的值的数量,ei为嵌入层输出的第i个低维向量。


5.根据权利要求4所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S5中维数转换层对第i个低维向量进行维度转换的公式为:
ai=WAei+b



其中,ai为标准维度向量数据,WA为维数转换层的权重矩阵,dmodel为每个特征类别的维度,b为偏置。


6.根据权利要求5所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S6中交互层包括多个子层,每个所述子层包括:多头自注意力单元和Add&Norm单元;
所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入Add&Norm单元的输入端中;所述多头自注意力单元的输入端作为子层的输入端;所述Add&Norm单元的输出端作为子层的输出端。


7.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述多头自注意力单元的输入输出的关系式为:









其中,为第1个子层中多头自注意力单元的输入,第一个子层中多头自注意力单元的输出,Concat()表示将结果连在一起,WO为联结参数矩阵,h为头数,dv为值的维度,headi为第i个头的计算结果,WiQ为查询参数矩阵,dk为键的维度,WiK为键参数矩阵,WiV为值参数矩阵。


8.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述Add&Norm单元输入输出的关系式为:



其中,为Add&Norm单元的输出,LayerNorm()为归一化函数,为多头自注意力单元的输入,为多头自...

【专利技术属性】
技术研发人员:邵杰刘树锦陈得荣
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1