样本数据集获取方法、装置、设备及存储介质制造方法及图纸

技术编号:25948987 阅读:36 留言:0更新日期:2020-10-17 03:41
本申请公开了一种样本数据集获取方法、装置、设备及存储介质,属于互联网技术领域。方法包括:获取任一搜索词对应的第一样本数据集,根据同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,选取至少一个目标负样本数据;根据用户标识的历史点击率,选取至少一个目标正样本数据,将目标负样本数据和目标正样本数据构成任一搜索词对应的第二样本数据集,第二样本数据集用于对排序模型进行训练。减少了负样本数据的数量,避免了负样本数据的数量远大于正样本数据的数量,从而避免了后续训练的排序模型更偏向于负样本数据特征的情况。后续采用第二样本数据集对排序模型进行训练,提高了排序模型的准确性。

【技术实现步骤摘要】
样本数据集获取方法、装置、设备及存储介质
本申请涉及互联网
,特别涉及一种样本数据集获取方法、装置、设备及存储介质。
技术介绍
为了保证搜索结果的准确性,在进行搜索时通常会调用排序模型,对搜索得到的多条数据进行排序。而如何训练准确的排序模型成为亟待解决的问题。相关技术中,对于任一个用户,当用户基于搜索词进行搜索得到至少一条数据后,显示的每条数据均可看作是用户看到的数据,可以作为样本数据,如果用户点击了显示的任一条数据,则将该数据记录为正样本数据,如果用户没有点击显示的任一条数据,则将该数据记录为负样本数据,则采用上述方式可以基于用户的点击行为获取正样本数据和负样本数据,再根据正样本数据和负样本数据训练排序模型,得到训练后的排序模型。但是,由于用户浏览数据的数量会远大于点击数据的数量,因此采用上述方式获取的正样本数据远少于负样本数据,在训练排序模型的过程中,排序模型学习的特征会更偏向于负样本数据的特征,导致训练得到的排序模型准确率低。
技术实现思路
本申请实例提供了一种样本数据集获取方法、装置、设备及存储介质,解决了相关技术存在的问题。所述技术方案如下:一方面,提供了一种样本数据集获取方法,所述方法包括:获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。在一种可能实现方式中,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;若所述搜索结果界面中包括位于所述目标位置之前的初始负样本数据,将位于所述目标位置之前的初始负样本数据确定为所述目标负样本数据。在另一种可能实现方式中,所述方法还包括:若所述搜索结果界面中还包括位于所述目标位置之后的初始负样本数据,从所述位于所述目标位置之后第一数量的初始负样本数据中,获取第二数量的初始负样本数据作为所述目标负样本数据,所述第二数量与所述第一数量之间的比例为预设比例,所述预设比例小于1。在另一种可能实现方式中,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;若所述任一初始负样本数据位于所述目标位置之前,则将所述任一初始负样本数据确定为所述目标负样本数据。在另一种可能实现方式中,所述根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据之前,所述方法还包括:获取任一用户标识的至少一条搜索记录和至少一条点击记录,所述搜索记录包括所述任一用户标识对应的至少一条数据,所述点击记录包括对应的搜索记录中发生点击行为的数据;根据所述至少一条搜索记录和所述至少一条点击记录,确定所述任一用户标识的历史点击率。在另一种可能实现方式中,根据所述至少一条搜索记录和所述至少一条点击记录,确定所述任一用户标识的历史点击率,包括:将所述至少一条搜索记录中,存在点击记录的搜索记录的数量确定为搜索点击次数,将每条点击记录中包括的数据的数量确定为所述每条点击记录的点击次数;根据所述搜索点击次数和所述每条点击记录的点击次数,确定所述任一用户标识的历史点击率。在另一种可能实现方式中,所述根据所述搜索点击次数和所述每条点击记录的点击次数,确定所述任一用户标识的历史点击率,包括:采用下述公式,确定任一用户标识的历史点击率:其中,Q为所述任一用户标识的搜索点击次数,Ii为第i条搜索记录对应的点击记录的点击次数,Ni为所述任一用户标识的历史平均点击次数,为所述任一用户标识的历史点击率。在另一种可能实现方式中,所述方法还包括:根据所述第二样本数据集中的所述至少一个目标负样本数据和所述至少一个目标正样本数据,训练所述排序模型,所述排序模型用于对根据任一搜索词搜索得到的多条数据进行排序。在另一种可能实现方式中,所述方法还包括:根据当前输入的搜索词获取搜索数据集合,所述搜索数据集合中包括多条数据;调用所述排序模型,对所述多条数据进行排序,得到所述多条数据的排列顺序;在所述搜索词对应的搜索结果界面中,按照所述排列顺序显示所述多条数据。另一方面,提供了一种样本数据集获取装置,所述装置包括:数据集获取模块,用于获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;第一选取模块,用于根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;第二选取模块,用于根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;构成模块,用于将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。在一种可能实现方式中,所述第一选取模块,包括:位置确定单元,用于将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;选取单元,用于若所述搜索结果界面中包括位于所述目标位置之前的初始负样本数据,将位于所述目标位置之前的初始负样本数据确定为所述目标负样本数据。在另一种可能实现方式中,所述选取单元,还用于若所述搜索结果界面中还包括位于所述目标位置之后的初始负样本数据,从所述位于所述目标位置之后第一数量的初始负样本数据中,获取第二数量的初始负样本数据作为所述目标负样本数据,所述第二数量与所述第一数量之间的比例为预设比例,所述预设比例小于1。在另一种可能实现方式中本文档来自技高网...

【技术保护点】
1.一种样本数据集获取方法,其特征在于,所述方法包括:/n获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;/n根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;/n根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;/n将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。/n

【技术特征摘要】
1.一种样本数据集获取方法,其特征在于,所述方法包括:
获取任一搜索词对应的第一样本数据集,所述第一样本数据集中包括多个初始正样本数据和多个初始负样本数据,所述初始正样本数据为所述搜索词对应的搜索结果界面中发生点击行为的数据,所述初始负样本数据为所述搜索词对应的搜索结果界面中未发生点击行为的数据;
根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据;
根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据;
将选取的所述至少一个目标负样本数据和所述至少一个目标正样本数据构成所述任一搜索词对应的第二样本数据集,所述第二样本数据集用于对排序模型进行训练。


2.根据权利要求1所述的方法,其特征在于,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:
将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;
若所述搜索结果界面中包括位于所述目标位置之前的初始负样本数据,将位于所述目标位置之前的初始负样本数据确定为所述目标负样本数据。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述搜索结果界面中还包括位于所述目标位置之后的初始负样本数据,从所述位于所述目标位置之后第一数量的初始负样本数据中,获取第二数量的初始负样本数据作为所述目标负样本数据,所述第二数量与所述第一数量之间的比例为预设比例,所述预设比例小于1。


4.根据权利要求1所述的方法,其特征在于,所述根据每个初始负样本数据及位于同一搜索结果界面中的初始正样本数据在所属搜索结果界面中的位置,从所述多个初始负样本数据中选取至少一个目标负样本数据,包括:
将任一初始负样本数据所属的搜索结果界面中,排在最后一位的初始正样本数据的位置确定为所述搜索结果界面的目标位置;
若所述任一初始负样本数据位于所述目标位置之前,则将所述任一初始负样本数据确定为所述目标负样本数据。


5.根据权利要求1所述的方法,其特征在于,所述根据每个初始正样本数据对应的用户标识的历史点击率,从所述多个初始正样本数据选取至少一个目标正样本数据之前,所述方法还包括:
获取任一用户标识的至少一条搜索记录和至少一条点击记录,所述搜索记录包括所述任一用户标识对应的至少一条数据,所述点击记录包括对应的搜索记录中发生点击行为的数据;
根据所述至少一条搜索记录和所述至少一条点击记录,确定所述任一用户标识的历史点击率。


6.根据权利要求5所述的方法,其特征在于,所述根据所述至少一条搜索记录和所述至少一条点击记录,...

【专利技术属性】
技术研发人员:王步霖杨一帆李悦郭圣昱屠川川陶然
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1