一种注意力机制下基于特征表征的点击率预估模型制造技术

技术编号:31723401 阅读:14 留言:0更新日期:2022-01-05 15:47
为了根据待测对象的对象特征完成点击率预估,可作为数据精排环节应用于企业级推荐系统、搜索系统和在线广告系统等领域。本发明专利技术提供一种注意力机制下基于特征表征的点击率预估模型,该模型包括:特征嵌入层,用于将连续型特征和离散型特征进行矢量化处理进而形成堆叠特征、显式特征交叉网络,通过注意力交叉网络将堆叠特征进行显式特征组合、隐式特征交叉网络,通过多层感知机将堆叠特征进行隐式特征组合以及预估概率输出层,根据接收到的组合特征对点击率进行预估。其中,注意力交叉网络消除了预估模型对人工特征工程的依赖,同时注意力机制的引入,区分了各组合特征对模型预估的重要性,消除了无用、冗余特征对模型的影响。冗余特征对模型的影响。冗余特征对模型的影响。

【技术实现步骤摘要】
一种注意力机制下基于特征表征的点击率预估模型


[0001]本专利技术属于数据挖掘
,具体为一种端到端点击预测技术,利用深度学习模型自动完成特征表征进而预测点击率的模型。

技术介绍

[0002]点击率预估作为直接影响用户平台体验和广告营收的关键技术,一直是业界最核心的研究课题之一。目前国内外的研究工作主要在特征表征层面,现有方法主要分为机器学习点击率模型和深度学习点击率模型两类。
[0003]早期阶段,工业界受限于计算力、在线学习和模型部署,主要是通过搭建轻量级机器学习模型,最经典模型当属逻辑回归模型(Logistic Regression)。LR以其数学含义好、可解释性强和便于工程化部署等优点迅速成为业界CTR预估主流模型。2010年Brendan McMahan等提出针对LR的在线学习算法FTRL(Follow The Regularized Leader),进一步促进了LR在工业界的应用,但LR模型本质是线性模型,模型学习能力有限,其预测效果通常取决于数据科学家的特征工程能力。因此,业界开始探索使用二项式模型(Polynomial Regression)构造二阶组合特征,利用特征两两交叉进行显式特征组合,其暴力交叉方式一定程度上解决了特征组合问题,但其只能学习到训练数据集中出现的共现性特征,难以在推荐、广告等大规模稀疏数据场景下泛化出未共现的组合特征。为了解决二项式模型的缺陷,2010年德国康斯坦茨大学的Steffen Rendle等提出了FM(Factorization Machine),开始为每个特征学习一个隐权重向量(latent vector),使用隐向量內积作为特征交叉权重,较好地解决了稀疏特征场景下的特征组合问题,此外通过变换目标函数形式的方法,使FM训练复杂度进一步降低,因此FM在2012到2014年前后逐渐成为业界CTR模型的重要选择。2015年,基于FM提出的FFM(Field-aware Factorization Machine)在多项CTR预估比赛中一举夺魁,并随后被Criteo、美团等公司开始应用在推荐、广告场景。相比FM模型,FFM模型主要引入了“域”的概念,在做特征交叉时,每个特征选择与组合特征域对应的隐向量做内积运算得到交叉特征的权重,使模型的表达能力更强,但受限于FFM空间复杂度较高及只能进行二阶特征交叉等限制,其在工业界并未得到广泛使用。此外,2014年Xinran He等提出了基于GBDT(Gradient Boost Decision Tree)+LR组合模型的解决方案,用于处理高维特征组合和筛选问题,其利用GBDT自动进行特征筛选和组合,利用独特编码对叶子节点进行编码,再把该编码特征作为LR模型输入完成CTR预估,开启了利用模型进行高阶特征构造、筛选的先河,较为高效的解决了过去非常棘手的特征组合和筛选问题,极大地推进了特征工程模型化这一重要趋势。
[0004]在此期间,研究人员发现高阶组合特征更容易挖掘出个性化需求,实现“千人千面”推送效果,受限于稀疏特征急剧增多,高阶组合特征业务逻辑难以理解等原因,传统的人工特征工程在挖掘高阶组合特征方面难以为继,人们开始尝试延续模型提取特征的优势,完成大数据场景下用户的个性化推送。伴随着深度学习在计算机视觉、自然语言处理领域大放异彩,人们开始尝试利用神经网络自动进行特征表征,进而取代手工特征工程完成
点击率预估。
[0005]2016年,深度学习开始被大规模应用于点击率预估,微软Ying Shan等提出Deep Crossing串行网络结构,其涵盖了CTR预估神经网络模型的经典要素,即通过加入嵌入层将稀疏特征转化为低维稠密特征,用堆叠层将分段的特征向量进行拼接,再通过多层神经网络完成特征的组合、转换,最终通过Sigmoid激活函数完成CTR预估,并正式将残差网络结构引入点击率预估模型,用于加强模型高阶特征提取能力。同年,上海交通大学张伟楠等提出FNN,在之前Deep Crossing网络结构的基础上,使用FM的隐层向量作为用户和物料的嵌入,从而避免了完全从随机状态训练嵌入矩阵,大大降低了模型的训练时间和嵌入层的不稳定性。使用预训练的方法完成网络嵌入层训练,无疑是降低深度学习模型复杂度和训练不稳定性的有效工程经验。然而,传统的DNN直接利用多层全连接层完成特征交叉组合,对点击率预估场景缺乏特征组合的“针对性”,因此,Yanru Qu等提出PNN(Product-based Neural Network),在嵌入层和全连接层之间加入Product layer,旨在不同特征域之间进行特征组合,增强模型表征不同数据模式的能力。
[0006]2016年,谷歌Heng-Tze Cheng等提出了Wide&Deep并行网络结构,把单输入层的Wide部分和经过多层感知机的Deep部分进行拼接传给输出层。利用Wide部分实现模型的“记忆性”(Memorization),Deep部分实现模型的“泛化性”(Generalization),其中DNN挖掘隐式高阶特征组合,LR连接Wide部分和Deep部分形成统一的CTR模型。Wide&Deep建立了一种基于深度学习的点击率预估并行框架,但仍未摆脱需要借助人工特征工程的限制。针对Wide部分表现不足等缺陷,2017年,华为Huifeng Guo等提出了DeepFM,在延续了Wide&Deep并行网络结构的基础上,使用FM替换原来的Wide部分,加强了浅层网络的特征组合能力,同时摆脱了点击率预估深度模型对人工特征工程的依赖。同年,Ruoxi Wang等提出Deep&Cross Network(DCN),开始使用Cross网络替换了原来的Wide部分,实现bit级别显式特征交互,进一步细化了Wide部分的特征交叉粒度。Xiangnan He等提出NFM(Neural Factorization Machines)对Deep部分进行改进,引入了Bi-interaction Pooling层替换FM进行特征交叉,进一步加强了Deep层的特征组合能力。2018年阿里巴巴Guorui Zhou等提出了基于注意力机制的深度学习网络DIN(Deep Interest Network),从用户行为序列中提取实时兴趣特征,进一步完善了用户侧特征表征。同年,Jianxun Lian等提出xDeepFM并行网路结构,建模vector级别显式特征交互,其Wide部分采用CIN(Compressed Interaction Network)来加强模型的显式特征组合能力,取得了一定效果。随后,2019年Guorui Zhou等提出DIEN(Deep Interest Evolution Network),在DIN的基础上开始引入序列模型AUGRU,将不同时间的用户兴趣串联起来,形成兴趣进化的链条,最后将当前时刻的“兴趣向量”输入上层的多层感知机,与其他特征联立完成点击率预估,取得了较好效果。
[0007]综上,目前的深度学习模型仍然无法做到利用神经网络取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种注意力机制下基于特征表征的点击率预估模型,用于根据待测对象的对象特征完成点击率预估,所述对象特征分为连续型特征和离散型特征,其特征在于,包括:特征嵌入层,将所述连续型特征和所述离散型特征进行矢量化处理后堆叠嵌入处理形成堆叠特征;显式特征交叉网络,通过将所述堆叠特征输入到注意力交叉网络进行显式特征组合,形成显式输出矢量;隐式特征交叉网络,通过将所述堆叠特征输入到多层感知机进行隐式特征组合,形成隐式输出矢量;预估概率输出层,将所述显式输出矢量和所述隐式输出矢量组合形成高阶非线性的组合特征,同时将该组合特征传递给Sigmoid激活函数进行点击率预测,得到所述点击率;其中,所述注意力交叉网络包括:交叉层,通过交叉算法对所述堆叠特征进行处理并生成多维矢量;以及注意力层,通过全连接神经网络对所述多维矢量进行处理并生成注意力得分,并对所述注意力得分进行规范化处理生成特征系数,进一步基于所述特征系数通过输出计算式生成所述显式输出矢量。2.根据权利要求1所述的一种注意力机制下基于特征表征的点击率预估模型,其特征在于:其中,所述矢量化处理为:对所述离散型特征进行独热编码转换,将编码后的所述离散型特征作为嵌入向量;对所述连续型特征进行依据数据分布特点的数据标准化,形成稠密特征;将所述嵌入向量和稠密特征进行所述堆叠嵌入处理作为堆叠特征,所述独热编码转化的矩阵计算公式为:x
embed,i
=W
embed,i
x
i
#(1)式中,x
embed,i
是嵌入向量,x
i
是第i类的二进制输入,而是将与网络中的其他参数一起进行优化的嵌入矩阵,而n
e
和n
v
分别是输入维度和嵌入矢量维度。3.根据权利要求1所述的一种注意力机制下基于特征表征的点击率预估模型,其特征在于:其中,所述交叉算法的计算公式为:式中,是列向量,分别表示来自第I层和第I+1层交叉层输出;是第I层的权重和偏差,函数f表示各层特征矢量交叉公式。4.根据权利要求1所述的一种注意力机制下基于特征表征的点击率预估模型,其特征在于:其中,所述注意力层中的所述规范化处理的计算逻辑为:a
i

...

【专利技术属性】
技术研发人员:杨卫东杜博亚
申请(专利权)人:珠海复旦创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1