确定展示物品的方法和模型训练方法、装置、设备及介质制造方法及图纸

技术编号：36379677 阅读：16 留言：0更新日期：2023-01-18 09:40

本发明专利技术实施例提供一种确定展示物品的方法和模型训练方法、装置、设备及介质，通过获取与目标用户相关联的在当前时刻之前预设时长内的高速流式数据，以及与物品展示请求相对应的至少一个待展示物品，可以确定至少一组待处理数据，进而通过点击率预测模型中的特征提取子模型、至少一个预测子模型以及为预测子模型动态分配准确率权重的权重分配子模型，对至少一组待处理数据进行预测处理，得到各待展示物品对应的目标点击率，实现了基于随时间变化的数据流分布的点击率预测，使得预测的点击率具备时效性，并且，动态调整的点击率预测模型能够快速适应流式数据中的概念漂移，进一步的提高了时效性，提高了预测精度。提高了预测精度。提高了预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
确定展示物品的方法和模型训练方法、装置、设备及介质

[0001]本专利技术实施例涉及人工智能
，尤其涉及一种确定展示物品的方法和模型训练方法、装置、设备及介质。

技术介绍

[0002]基于深度学习的点击率(Click through rate,CTR)预测模型已得到了广泛应用，如，可以应用在对物品触发概率的场景中。现有的点击率预测模型多应用于服务海量用户产生的高速流式数据。但是，该模型无法适应数据流分布随时间的变化而变化的，即将其部署到终端上时，存在无法有效对数据进行处理的问题。基于上述问题提出了增量学习和集成学习的方式来训练相应的模型，从而实现将其部署到终端设备上。
[0003]专利技术人在基于上述方式实施本技术方案时，发现存在如下问题：
[0004]增量学习方法训练得到模型并应用时，存在稳定性与时效性不平衡的问题，导致数据处理效果不佳；集成学习(Ensemble Learning)方式，由于网络层数过深时，模型训练很难收敛，因此很难训练得到部署到终端设备上的模型，相应的，即使将其部署到终端设备上处理得到的效果也不佳。

技术实现思路

[0005]本专利技术实施例提供一种确定展示物品的方法和模型训练方法、装置、设备及介质，以解决点击率预测结果不具备时效性以及预测结果的准确性较低的问题。
[0006]第一方面，本专利技术实施例提供了一种确定展示物品的方法，该方法包括：
[0007]获取与目标用户相关联的在当前时刻之前预设时长内的高速流式数据，以及与物品展示请求相对应...

【技术保护点】

【技术特征摘要】
1.一种确定展示物品的方法，其特征在于，包括：获取与目标用户相关联的在当前时刻之前预设时长内的高速流式数据，以及与物品展示请求相对应的至少一个待展示物品；根据所述高速流式数据以及每个待展示物品的物品关联数据，确定至少一组待处理数据；其中，所述待处理数据的组数与所述待展示物品的数量相同；基于点击率预测模型对所述至少一组待处理数据预测处理，得到与各待展示物品相对应的目标点击率；其中，所述点击率预测模型包括特征提取子模型、至少一个预测子模型以及为所述至少一个预测子模型动态分配准确率权重的权重分配子模型；基于各目标点击率，确定目标展示物品并展示。2.根据权利要求1所述的方法，其特征在于，所述物品展示请求是基于下述至少一种方式生成的：基于搜索框中输入的搜索词，生成与所述搜索词相对应的物品展示请求；检测到刷新当前物品展示页面时，生成所述物品展示请求。3.根据权利要求1所述的方法，其特征在于，所述根据所述高速流式数据以及每个待展示物品的物品关联数据，确定至少一组待处理数据，包括：根据与所述目标用户相对应的用户特征数据和所述高速流式数据，确定与所述目标用户相对应的目标特征数据；针对各待展示物品，根据所述目标特征数据和当前待展示物品的物品品类、物品名称以及历史处理数据，确定与所述当前待展示物品相对应的待处理数据。4.根据权利要求1所述的方法，其特征在于，所述基于点击率预测模型对所述至少一组待处理数据预测处理，得到与各待展示物品相对应的目标点击率，包括：针对各组待处理数据，将当前待处理数据输入至所述特征提取子模型，得到与所述当前待处理数据相对应的特征序列；将所述特征序列分别输入至所述至少一个预测子模型中，得到与所述特征序列相对应的预测点击率；基于所述权重分配子模型中存储的与各预测子模型相对应的准确率权重以及相应的预测点击率，确定与所述当前待处理数据相对应的目标点击率；其中，所述准确率权重是所述权重分配子模型根据待训练数据的预测点击率和相应的真实点击率动态更新的，所述待训练数据中包括高速流式数据和展示物品的物品关联数据。5.根据权利要求4所述的方法，其特征在于，所述基于各预测子模型的准确率权重以及相应的预测点击率，确定与所述当前待处理数据相对应的目标点击率，包括：确定各准确率权重和相应预测点击率的乘积，得到各待累加点击率；通过对各待累加点击率累加处理，得到与所述当前待处理数据相对应的目标点击率。6.根据权利要求1所述的方法，其特征在于，所述基于各目标点击率，确定目标展示物品并展示，包括：依据各待展示物品的目标点击率，从各待展示物品中确定预设数量的目标展示物品并展示；或，将各待展示物品依据目标点击率从高往低的顺序展示在显示界面上。
7.根据权利要求1所述的方法，其特征在于，还包括：将所述点击率预测模型部署在分布式系统中的各分布式节点上，以在接收物品展示请求时，基于点击率预测模型对相应的待处理数据预测处理，或在接收到待训练数据时，基于各预测子模型对所述待训练数据的处理结果动态更新相应预测子模型的准确率权重。8.根据权利要求1所述的方法，其特征在于，在基于所述点击率预测模型对所述至少一组待处理数据预测处理之前或之后，还包括：将与当前时刻相关联的目标时间切片内的待训练数据和相应真实点击率输入至所述点击率预测模型中，以获取各预测子模型对所述待训练数据的预测点击率，并使所述权重分配子模型根据各预测点击率和相应的真实点击率，更新各预测子模型的准确率权重，以在接收到物品展示请求时，基于更新后的准确率权重确定各待展示物品的目标点击率；其中，所述目标时间切片是基于预设时间划分规则确定的。9.一种点击率预测模型的训练方法，其特征在于，点击率预测模型中包括特征提取子模型、至少一个预测子模型以及权重分配子模型，所述方法包括：获取当前时间切片内的多组待训练数据；其中，时间切片是根据预设时间划分规则确定的，所述待训练数据中包括各用户在当前时间切片内的高速流式数据、用户特征数据、展示物品的物品关联数据以及各用户对相应展示物品的真实点击率；将基于所述特征提取子模型提取的所述待训练数据的待训练特征序列，分别输入至所述至少一个预测子模型中，得到包括至少一个预测点击率的预测概率矩阵；其中，各预测点击率对应于相应的预测子模型；基于所述预测概率矩阵和所述权重分配子模型中记录的与所述至少一个预测子模型相对应的当前准确率权重矩阵，确定所述待训练数据的输出点击率；基于所述输出点击率和所述待训练数据的真实点击率，确定待使用损失值，以基于所述待使用损失值对所述至少一个预测子模型和所述特征提取子模型进行参数校正；在所述当前时间切片内的各组待训练数据处理完成后，基于各组待训练数据的待使用损失值，对所述点击率预测模型中的各子模型进行参数校正。10.根据权利要求9所述的方法，其特征在于，所述获取当前时间切片内的多组待训练数据，包括：获取当前时间切片内至少一个用户对相应展示物品的高速流式数据、展示物品的真实点击率、展示物品的物品关联数据，并作为原始数据；其中，所述物品关联数据中包括物品品类、物品名称以及处理量数据；依据所述原始数据中各数据的生成时间戳和预先设置的数据处理量，将所述原始数据划分为多组待训练数据；其中，每组待训练数据中包括与展示物品相对应的物品关联数据。11.根据权利要求9所述的方法，其特征在于，所述基于所述预测概率矩阵和所述权重分配子模型中记录的与所述至少一个预测子模型相对应的当前准确率权重矩阵，确定所述待训练数据的输出点击率，包...

【专利技术属性】
技术研发人员：刘聪聪，赵夕炜，
申请(专利权)人：北京沃东天骏信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人