【技术实现步骤摘要】
样本数据集获取方法、装置、设备及存储介质
本申请涉及互联网
,特别涉及一种样本数据集获取方法、装置、设备及存储介质。
技术介绍
为了保证搜索结果的准确性,在进行搜索时通常会调用排序模型,对搜索得到的多条数据进行排序。而如何训练准确的排序模型成为亟待解决的问题。相关技术中,对于任一个用户,当用户基于搜索词进行搜索得到至少一条数据后,显示的每条数据均可看作是用户看到的数据,可以作为样本数据,如果用户点击了显示的任一条数据,则将该数据记录为正样本数据,如果用户没有点击显示的任一条数据,则将该数据记录为负样本数据,则采用上述方式可以基于用户的点击行为获取正样本数据和负样本数据,再根据正样本数据和负样本数据训练排序模型,得到训练后的排序模型。但是,由于用户浏览数据的数量会远大于点击数据的数量,因此采用上述方式获取的正样本数据远少于负样本数据,在训练排序模型的过程中,排序模型学习的特征会更偏向于负样本数据的特征,导致训练得到的排序模型准确率低。
技术实现思路
本申请实例提供了一种样本数据集获取方法、装置、设备及存储介质,解决了相关技术存在的问题。所述技术方案如下:一方面,提供了一种样本数据集获取方法,所述方法包括:获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;根据 ...
【技术保护点】
1.一种样本数据集获取方法,其特征在于,所述方法包括:/n获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;/n根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;/n根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;/n将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。/n
【技术特征摘要】
1.一种样本数据集获取方法,其特征在于,所述方法包括:
获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;
根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;
根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;
将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:
将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;
若所述搜索结果界面中包括位于所述目标位置之前的初始负样本数据,将位于所述目标位置之前的初始负样本数据确定为所述目标负样本数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述搜索结果界面中还包括位于所述目标位置之后的初始负样本数据,从所述位于所述目标位置之后第一数量的初始负样本数据中,获取第二数量的初始负样本数据作为所述目标负样本数据,所述第二数量与所述第一数量之间的比例为预设比例,所述预设比例小于1。
4.根据权利要求1所述的方法,其特征在于,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:
将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;
若所述任一初始负样本数据位于所述目标位置之前,则将所述任一初始负样本数据确定为所述目标负样本数据。
5.根据权利要求1所述的方法,其特征在于,所述根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据之前,所述方法还包括:
获取任一用户标识的至少一条搜索记录和至少一条点击记录,所述搜索记录包括所述任一用户标识对应的至少一条数据,所述点击记录包括对应的搜索记录中发生点击行为的数据;
根据所述至少一条搜索记录和所述至少一条点击记录,确定所述任一用户标识的历史点击率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述至少一条搜索记录和所述至少一条点击记录,...
【专利技术属性】
技术研发人员:王步霖,杨一帆,李悦,郭圣昱,屠川川,陶然,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。