CTR预测模型的知识蒸馏方法及装置制造方法及图纸

技术编号：38426817 阅读：6 留言：0更新日期：2023-08-07 11:24

本申请涉及机器学习技术领域，提供了一种CTR预测模型的知识蒸馏方法及装置。该方法包括：获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型；将训练数据分别输入学生模型和多个教师模型，得到学生模型和多个教师模型各自的输出；利用门控模型确定多个教师模型各自的输出对应的权重，并基于多个教师模型各自的输出所对应的权重，计算多个教师模型各自的输出的加权和；基于学生模型的输出和加权和，利用目标损失函数计算损失值，并基于损失值更新学生模型的模型参数，以完成从多个教师模型到学生模型的知识蒸馏。采用上述技术手段，解决现有技术中，通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题。意的问题。意的问题。

全部详细技术资料下载

【技术实现步骤摘要】
CTR预测模型的知识蒸馏方法及装置

[0001]本申请涉及机器学习
，尤其涉及一种CTR预测模型的知识蒸馏方法及装置。

技术介绍

[0002]推荐系统在当今生活扮演着不可或缺的作用，无论是网络购物，新闻阅读，还是视频观看等，都有其身影。用户点击预测(Click Through Rate，CTR)是推荐系统中的关键任务，它可以估计用户点击一个item的概率，用于执行CTR任务模型的称之为CTR预测模型。在很多场景下，只能运行小规模的CTR预测模型，所以常用知识蒸馏的方法将大规模的CTR预测模型的知识迁移给小规模的CTR预测模型，但是知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意，比如精度低和泛化能力差等。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种CTR预测模型的知识蒸馏方法、装置、电子设备及计算机可读存储介质，以解决现有技术中，通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题。
[0004]本申请实施例的第一方面，提供了一种CTR预测模型的知识蒸馏方法，包括：获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型，其中，学生模型和多个教师模型均为CTR预测模型；获取训练数据，将训练数据分别输入学生模型和多个教师模型，得到学生模型和多个教师模型各自的输出；利用门控模型确定多个教师模型各自的输出对应的权重，并基于多个教师模型各自的输出所对应的权重，计算多个教师模型各自的输出的加权和；基于学生模型的输出和加权和，利用目标损失函数计算损失值...

【技术保护点】

【技术特征摘要】
1.一种CTR预测模型的知识蒸馏方法，其特征在于，包括：获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型，其中，所述学生模型和多个教师模型均为CTR预测模型；获取训练数据，将所述训练数据分别输入所述学生模型和多个教师模型，得到所述学生模型和多个教师模型各自的输出；利用门控模型确定多个教师模型各自的输出对应的权重，并基于多个教师模型各自的输出所对应的权重，计算多个教师模型各自的输出的加权和；基于所述学生模型的输出和所述加权和，利用目标损失函数计算损失值，并基于所述损失值更新所述学生模型的模型参数，以完成从多个教师模型到所述学生模型的知识蒸馏。2.根据权利要求1所述的方法，其特征在于，基于所述学生模型的输出和所述加权和，利用目标损失函数计算损失值：；其中，为所述学生模型的输出，为所述加权和，x为所述训练数据，y为所述训练数据的标签，下标s用于标记为所述学生模型的输出，下标t用于标记是所述加权和，与多个教师模型各自的输出相关，τ为所述学生模型和多个教师模型的温度超参，和均与τ相关，为交叉熵损失函数，为计算推土机距离的函数，β为预设权重。3.根据权利要求1所述的方法，其特征在于，所述门控模型由多个全连接神经网络串行连接，以及在每两个相邻的全连接神经网络之间插入激活函数组成；所述门控模型已经过训练，能为不同教师模型的输出分配对应的权重，其中，所述门控模型分配的权重为大于0且小于1的标量，每次所述门控模型分配的所有权重的和为1。4.根据权利要求1所述的方法，其特征在于，基于所述学生模型的输出和所述加权和，利用目标损失函数计算损失值之前，所述方法还包括：将多个教师模型各自的输出均输入注意力模型，输出所述加权和，其中，所述注意力模型已经过训练，能通过融合多个教师模型各自的输出，得到多个教师模型各自的输出的所述加权和。5.根据权利要求1所述的方法，其特征在于，将所述训练数据分别输入所述学生模型和多个教师模型，得到所述学生模型和多个教师模型各自的输出之前，所述方法还包括：确定所述学生模型和多个教师模型各自的模型规模；基于所述学生模型和多个教师模型各自的模型规模，确定所述学生模型和多个教师模型的温度超参；其中，所述温度超参与所述学生模型和多个教师模型各自的输出相关。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：在对所述学生模型进行的多批次训练中，按照如下方法提供一种动态超参温度：
根据当前批次计算...

【专利技术属性】
技术研发人员：董辉，暴宇健，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人