【技术实现步骤摘要】
训练学生模型的方法、行为预测方法和装置
[0001]本说明书一个或多个实施例涉及机器学习和行为预测领域,尤其涉及训练学生模型的方法、行为预测方法和装置。
技术介绍
[0002]行为预测(Cl ick Through Rate,CTR)模型,或称点击率预测模型,通常用于对用户针对目标对象的用户行为进行预测。目前,随着CTR模型的发展,其模型结构的复杂度和在线服务的耗时均会增加,会导致限制CTR模型的应用范围。对此,一种现有解决方案通过知识蒸馏(Knowledge Distillation)技术,将具有相对复杂网络结构的教师模型中的知识(Knowledge)迁移到具有相对简单的网络结构的学生模型中,并利用学生模型对用户行为进行实际预测。但是,在一些场景中,由于学生模型容量与老师的模型容量差异较大或者模型结构的差异较大,使用现有的知识蒸馏方案进行知识迁移的效率较低,迁移后学生模型的用户行为预测能力不足。
技术实现思路
[0003]本说明书中的实施例旨在提供一种训练学生模型的方法、行为预测方法和装置,提高了将教师模型 ...
【技术保护点】
【技术特征摘要】
1.一种训练学生模型的方法,该方法基于教师模型以及桥模型来训练学生模型,包括:将目标用户与目标对象的原始特征数据输入第一嵌入层,得到第一嵌入特征;将第一嵌入特征分别输入训练好的教师模型得到第一预测结果,且将第一嵌入特征输入桥模型得到第二预测结果,根据第一预测结果和第二预测结果,更新所述桥模型;所述桥模型包括桥特征提取网络和桥预测网络;将所述第一嵌入特征输入所述桥特征提取网络,得到第一桥提取向量;以及将所述第一嵌入特征输入学生模型包括的学生特征提取网络,得到学生提取向量;根据第一桥提取向量和学生提取向量,确定交互蒸馏损失;将所述原始特征数据输入第二嵌入层,得到第二嵌入特征;将所述第二嵌入特征输入所述桥特征提取网络,得到第二桥提取向量;根据第一桥提取向量和第二桥提取向量,确定嵌入蒸馏损失;至少根据所述交互蒸馏损失和嵌入蒸馏损失,确定综合损失,根据所述综合损失,更新所述学生模型;所述学生模型用于预测预定行为。2.根据权利要求1所述的方法,其中,所述学生模型还包括学生预测网络;所述方法还包括:将学生提取向量输入学生预测网络,得到关于所述预定行为的第三预测结果,根据第三预测结果和所述预定行为的行为标签,得到基础分类损失;根据第一预测结果和第三预测结果,得到师生差异损失;至少根据所述交互蒸馏损失和嵌入蒸馏损失,确定综合损失,包括:根据所述基础损失、师生差异损失、交互蒸馏损失和嵌入蒸馏损失,确定综合损失。3.根据权利要求2所述的方法,其中,根据所述基础损失、师生差异损失、交互蒸馏损失和嵌入蒸馏损失,确定综合损失,包括:根据所述基础损失、师生差异损失、交互蒸馏损失和嵌入蒸馏损失的加权和,确定综合损失。4.根据权利要求1所述的方法,其中,所述桥特征提取网络通过图神经网络实现;所述原始特征数据包括多个字段的特征数据;将所述第一嵌入特征输入所述桥特征提取网络,得到第一桥提取向量,包括:将所述第一嵌入特征包括的对应于所述多个字段的多个子特征,作为无向图的多个节点对应的初阶向量;通过所述图神经网络对所述多个节点进行特征交互,得到各个节点的多个阶的向量;聚合各个节点的多个阶的向量,得到第一桥提取向量。5.根据权利要求4所述的方法,其中,所述特征交互包括多轮迭代,任意一轮迭代包括:根据所述多个节点的上一阶向量,确定出本轮各个节点之间的交互消息向量;根据本轮的所述交互消息向量、各个节点的上一阶向量、以及各个节点之间的关系权重,更新得到各个节点的本阶向量。6.根据权利要求5所述的方法,其中,根据所述多个节点的上一阶向量,确定出本轮各个节点之间的交互消息向量,包括:对于多个节点中任意的第一节点和第二节点,将第一节点的上一阶向量和第二节点的上一阶向量的向量和、与第一节点的上一阶向量和第二节点的上一阶向量的哈德玛
Hadamard积进行级联,得到本轮第一节点和第二节点之间的交互消息向量。7.根据权利要求5所述的方法,其中,根据本轮的所述交互消息向量、各个节点的上一阶向量、以及各个节点之间的关系权重,更新得到各个节点的本阶向量,包括:对于多个节点中任意的第三节点,根据第三节点的上一阶向量与其它节点的上一阶向量之间的交互消息向量与关系权重的乘积之和,得到第一更新向量,对第三节点的上一阶向量和第一更新向量级联,得到第三节点向量的本阶向量。8.根据权利要求4所述的方法,其中,聚合各个节点的多个阶的向量,得到第一桥提取向量,包括:对各个节点的多个阶的向量进行级联,得到...
【专利技术属性】
技术研发人员:邓印,陈颖鑫,董鑫,潘凌超,李海,程磊,莫林剑,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。