CTR预测模型的知识蒸馏方法及装置制造方法及图纸

技术编号:38426817 阅读:6 留言:0更新日期:2023-08-07 11:24
本申请涉及机器学习技术领域,提供了一种CTR预测模型的知识蒸馏方法及装置。该方法包括:获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型;将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏。采用上述技术手段,解决现有技术中,通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题。意的问题。意的问题。

【技术实现步骤摘要】
CTR预测模型的知识蒸馏方法及装置


[0001]本申请涉及机器学习
,尤其涉及一种CTR预测模型的知识蒸馏方法及装置。

技术介绍

[0002]推荐系统在当今生活扮演着不可或缺的作用,无论是网络购物,新闻阅读,还是视频观看等,都有其身影。用户点击预测(Click Through Rate,CTR)是推荐系统中的关键任务,它可以估计用户点击一个item的概率,用于执行CTR任务模型的称之为CTR预测模型。在很多场景下,只能运行小规模的CTR预测模型,所以常用知识蒸馏的方法将大规模的CTR预测模型的知识迁移给小规模的CTR预测模型,但是知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意,比如精度低和泛化能力差等。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种CTR预测模型的知识蒸馏方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题。
[0004]本申请实施例的第一方面,提供了一种CTR预测模型的知识蒸馏方法,包括:获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,学生模型和多个教师模型均为CTR预测模型;获取训练数据,将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏。
[0005]本申请实施例的第二方面,提供了一种CTR预测模型的知识蒸馏装置,包括:获取模块,被配置为获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,学生模型和多个教师模型均为CTR预测模型;输入模块,被配置为获取训练数据,将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;计算模块,被配置为利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;蒸馏模块,被配置为基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏。
[0006]本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0007]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0008]本申请实施例与现有技术相比存在的有益效果是:因为本申请实施例通过获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,学生模型和多个教师模型均为CTR预测模型;获取训练数据,将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏,因此,采用上述技术手段,可以解决现有技术中,通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题,进而提高通过知识蒸馏得到的小规模的CTR预测模型的使用效果。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0010]图1是本申请实施例提供的一种CTR预测模型的知识蒸馏方法的流程示意图;图2是本申请实施例提供的一种动态调整超参温度的方法的流程示意图;图3是本申请实施例提供的一种CTR预测模型的知识蒸馏装置的结构示意图;图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0011]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0012]图1是本申请实施例提供的一种CTR预测模型的知识蒸馏方法的流程示意图。图1的CTR预测模型的知识蒸馏方法可以由计算机或服务器,或者计算机或服务器上的软件执行。如图1所示,该CTR预测模型的知识蒸馏方法包括:S101,获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,学生模型和多个教师模型均为CTR预测模型;S102,获取训练数据,将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;S103,利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;S104,基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏。
[0013]将多个教师模型各自的输出均输入门控模型,门控模型输出多个教师模型各自的输出对应的权重。计算多个教师模型各自的输出的加权和,是将每个教师模型的输出与其对应的权重相乘,然后将所有教师模型的输出与对应的权重相乘的结果相加,得到加权和。
基于损失值更新学生模型的模型参数,就是从多个教师模型到学生模型的知识蒸馏的过程,也是基于多个教师模型,训练学生模型的过程。
[0014]CTR,全称是Click Through Rate,也就是点击预测模型。本申请实施例中训练得到的CTR预测模型可以用于网络购物、新闻阅读以及视频观看等场景中预测用户喜欢的目标,将预测的目标推荐给用户。训练数据和CTR预测模型的使用场景是一致的。比如在网络购物场景下,训练数据是大量用户点击购买商品的数据。
[0015]教师模型的模型规模远大于学生模型的模型规模,所以说,教师模型是重量级的模型,学生模型是轻量级的模型。因为人们在学习的时候是由不同的老师教授不同学科的知识,本申请实施例基于该思想,在知识蒸馏中利用多个教师模型训练学生模型,使得学生模型学习到最多的知识,进而提高通过知识蒸馏得到的学生模型的使用效果,包括提高学生模型的精度和泛化能力等。学生模型即为小规模的CTR预测模型,教师模型即为大规模的CTR预测模型。
[0016]根据本申请实施例提供的技术方案,获取多个已训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种CTR预测模型的知识蒸馏方法,其特征在于,包括:获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,所述学生模型和多个教师模型均为CTR预测模型;获取训练数据,将所述训练数据分别输入所述学生模型和多个教师模型,得到所述学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于所述学生模型的输出和所述加权和,利用目标损失函数计算损失值,并基于所述损失值更新所述学生模型的模型参数,以完成从多个教师模型到所述学生模型的知识蒸馏。2.根据权利要求1所述的方法,其特征在于,基于所述学生模型的输出和所述加权和,利用目标损失函数计算损失值:;其中,为所述学生模型的输出,为所述加权和,x为所述训练数据,y为所述训练数据的标签,下标s用于标记为所述学生模型的输出,下标t用于标记是所述加权和,与多个教师模型各自的输出相关,τ为所述学生模型和多个教师模型的温度超参,和均与τ相关,为交叉熵损失函数,为计算推土机距离的函数,β为预设权重。3.根据权利要求1所述的方法,其特征在于,所述门控模型由多个全连接神经网络串行连接,以及在每两个相邻的全连接神经网络之间插入激活函数组成;所述门控模型已经过训练,能为不同教师模型的输出分配对应的权重,其中,所述门控模型分配的权重为大于0且小于1的标量,每次所述门控模型分配的所有权重的和为1。4.根据权利要求1所述的方法,其特征在于,基于所述学生模型的输出和所述加权和,利用目标损失函数计算损失值之前,所述方法还包括:将多个教师模型各自的输出均输入注意力模型,输出所述加权和,其中,所述注意力模型已经过训练,能通过融合多个教师模型各自的输出,得到多个教师模型各自的输出的所述加权和。5.根据权利要求1所述的方法,其特征在于,将所述训练数据分别输入所述学生模型和多个教师模型,得到所述学生模型和多个教师模型各自的输出之前,所述方法还包括:确定所述学生模型和多个教师模型各自的模型规模;基于所述学生模型和多个教师模型各自的模型规模,确定所述学生模型和多个教师模型的温度超参;其中,所述温度超参与所述学生模型和多个教师模型各自的输出相关。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在对所述学生模型进行的多批次训练中,按照如下方法提供一种动态超参温度:
根据当前批次计算...

【专利技术属性】
技术研发人员:董辉暴宇健
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1