【技术实现步骤摘要】
点击率预测模型训练、搜索召回方法、装置、设备及介质
本专利技术涉及互联网
,特别是涉及一种点击率预测模型训练、搜索召回方法、装置、设备及介质。
技术介绍
目前,当用户在显示界面的搜索栏中输入需要搜索的物品所对应的搜索词后,电子设备可以基于该搜索词在显示界面展现或推荐相应的物品,即搜索召回过程。在此过程中,不可或缺的需要对搜索到的多个物品进行排序,即搜索排序。基于梯度提升决策树(GradientBoostingDecisionTree,GBDT)模型的排序学习(learningtorank)方法是目前在搜索排序中使用最普遍的方法之一。但是在利用GBDT模型进行搜索排序时,由于上述GBDT模型本身存在无法处理稀疏特征的特性,这将导致搜索排序的结果缺乏个性化,影响搜索排序的质量。
技术实现思路
本专利技术实施例的目的在于提供一种点击率预测模型训练、搜索召回方法、装置、设备及介质,以提高搜索排序结果的个性化,提升搜索排序质量。具体技术方案如下:在本专利技术实施的第一方面,首先提供了一种点击率 ...
【技术保护点】
1.一种点击率预测模型训练方法,其特征在于,所述方法包括:/n获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;/n基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;/n针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;/n根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;/n当所述损失值大于预设损失值阈 ...
【技术特征摘要】
1.一种点击率预测模型训练方法,其特征在于,所述方法包括:
获取预设训练集;所述预设训练集包括基于多个样本用户的样本搜索词所召回样本物品的样本展点数据以及每一样本物品的样本物品信息和真实点击率;其中,所述展点数据包括搜索展现记录以及搜索点击记录;
基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征;
针对每一样本物品,以所述样本稠密特征和所述样本稀疏特征为预设点击率预测模型的输入数据,输出每一样本物品的预测点击率;
根据每一样本物品的真实点击率和预测点击率,计算所述预设点击率预测模型的损失值;
当所述损失值大于预设损失值阈值时,调节所述预设点击率预测模型的参数,并返回执行所述针对每一样本物品,将所述样本稠密特征和所述样本稀疏特征输入预设点击率预测模型,得到每一样本物品的预测点击率的步骤;
当所述损失值不大于所述预设损失值阈值时,将当前的预设点击率预测模型确定为训练好的点击率预测模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本展点数据和每一样本物品的样本物品信息进行特征提取,得到样本稠密特征和样本稀疏特征的步骤,包括:
对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征;
对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征。
3.根据权利要求2所述的方法,其特征在于,所述样本稠密特征包括搜索词特征、和/或物品特征、和/或搜索词与物品间的召回特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稠密特征提取,得到样本稠密特征的步骤,包括:
针对每一样本搜索词,根据该样本搜索词对应的样本展点数据,至少获取该样本搜索词的第一展现次数和点击熵,作为所述搜索词特征;和/或
针对每一样本物品,根据该样本物品的物品信息以及该样本物品对应的样本展点数据,至少获取该样本物品的元数据信息、第二展现次数和第一点击次数,作为该样本物品的物品特征;和/或
根据所述样本展点数据,至少获取每一样本搜索词下样本物品对应的第三展现次数和第二点击次数,以及每一样本搜索词与样本物品间的相关性,作为所述搜索词与物品间的召回特征。
4.根据权利要求2所述的方法,其特征在于,所述样本稀疏特征包括搜索词侧特征、和/或物品侧特征、和/或用户侧特征;
所述对所述样本展点数据和每一样本物品的样本物品信息进行稀疏特征提取,得到样本稀疏特征的步骤,包括:
根据所述样本展点数据中包括的样本搜索词,对所述样本搜索词进行分词处理,得到多个分词,并将每一分词对应的标识作为所述搜索词侧特征;和/或
对所述样本物品的样本物品信息包括的物品名称进行分词处理,得到多个分词,并将每一分词对应的标识作为所述物品侧特征;和/或
针对每一样本用户,根据所述样本展点数据,至少获取该样本用户对应的样本搜索词以及点击的样本物品,作为所述用户侧特征。
5.一种搜索召回方法,其特征在于,所述方法包括:
获取第一搜索词以及所述第一搜索词对应的用户信息;
获取预设物品库中与所述第一搜索词匹配的待展现物品的物品信息;
从历史展点数据中获取与所述第一搜索词匹配的第一展点数据,以及与所述用户信息匹配的第二展点数据;所述展点数据包括搜索展现记录和搜索点击记录;
针对每一待展现物品,以所述第一展点数据、所述第二展点数据和该待展现物品的物品信息作为所述训练好的点击率预测模型的输入数据,输出该待展现物...
【专利技术属性】
技术研发人员:陈伟桐,
申请(专利权)人:北京爱奇艺科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。