用于构建训练样本的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39042045 阅读:14 留言:0更新日期:2023-10-10 11:55
本申请公开了一种用于构建训练样本的方法、装置、电子设备及存储介质。该方法包括:获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为预定时间段内产生的第一正样本集合,第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;对各个正样本商品列表分别进行去重处理,对各个去重的正样本商品列表中的各个商品添加第一类标识,根据去重的正样本商品列表中各个正样本商品的属性,为各个正样本商品分别选取负样本商品,构成对应的负样本商品列表,基于负样本商品列表构成第一负样本集合。利用本申请实施例能够获得高质量的训练样本。得高质量的训练样本。得高质量的训练样本。

【技术实现步骤摘要】
用于构建训练样本的方法、装置、电子设备及存储介质


[0001]本申请涉及机器学习和电商平台
,尤其涉及一种用于构建训练样本的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]电商平台的搜索引擎根据搜索请求(query)召回商品,召回的商品经过粗排、精排等处理后曝光,供用户挑选购买。关于粗排和精排,参考图1,粗排阶段的整体策略是根据召回结果与query的相关性对召回结果进行筛选、排序,相关性高的商品进入精排;精排阶段可综合考虑多种因素对排序的影响,例如考虑商品的历史销量或当前热度,可使更有可能被用户选中购买的商品得到曝光机会,又如考虑卖家促销因素,将促销商品优先曝光,等等。以上描述的召回曝光策略适用于各类网络平台的搜索引擎或推荐系统。
[0003]其中,粗排处理中的核心问题之一是粗排模型的负样本选择问题。由于系统可记录的日志数据有限,已有的做法大多是基于用户行为(如搜索关键词、浏览曝光商品、点击商品、收藏商品、购买商品等)来构建正负样本,例如针对用户输入搜索词之后的一系列行为,以该用户最终购买的商品为该次搜索的正样本,以曝光但未被购买和/或未被点击的商品为负样本,此正负样本在一定程度上反映该用户的选择倾向,可作为粗排模型的训练样本。但是,按照上述方式确定的负样本多样性较差,与粗排模型实际处理的数据分布差异较大,训练效果难以让人满意。目前,相关场景中粗排模型的训练样本构成问题存在着较大的提升空间,是研发人员研究的热点和难点之一,粗排模型训练效果有待提升。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种用于构建训练样本的方法、装置、电子设备及计算机可读存储介质,用于解决以上至少一种技术问题。
[0005]第一方面,本申请实施例提供一种用于构建训练样本的方法,包括:
[0006]获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为所述预定时间段内产生的第一正样本集合,所述第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;
[0007]对各个正样本商品列表分别进行去重处理,得到去重的正样本商品列表;
[0008]对各个去重的正样本商品列表中的各个商品添加第一类标识,确定预设的负样本候选池中各个商品具有第二类标识;
[0009]根据去重的正样本商品列表中各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个负样本商品,构成对应的负样本商品列表,基于一个或多个负样本商品列表构成所述第一正样本集合对应的第一负样本集合,其中为当前正样本商品选取R个负样本商品时,基于当前正样本商品的第一类标识以及负样本候选池中商品的第二类标识进行选取,以使所述第一负样本集合中不存在重复的商品信息,其中R为预设步长。
[0010]第二方面,本申请实施例提供一种用于构建训练样本的装置,包括:
[0011]正样本处理模块,用于获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为所述预定时间段内产生的第一正样本集合,所述第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;
[0012]去重处理模块,用于对各个正样本商品列表分别进行去重处理,得到去重的正样本商品列表;
[0013]标识处理模块,用于对各个去重的正样本商品列表中的各个商品添加第一类标识,确定预设的负样本候选池中各个商品具有第二类标识;
[0014]负样本处理模块,用于根据去重的正样本商品列表中各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个负样本商品,构成对应的负样本商品列表,基于一个或多个负样本商品列表构成所述第一正样本集合对应的第一负样本集合,其中为当前正样本商品选取R个商品的信息时,基于当前正样本商品的第一类标识以及负样本候选池中商品的第二类标识进行选取,以使所述第一负样本集合中不存在重复的商品信息,其中R为预设步长。
[0015]第三方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述电子设备执行所述计算机程序指令时实现如上所述的方法的步骤。
[0016]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。
[0017]第五方面,本申请实施例提供一种计算机程序产品,其包括计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。
[0018]本申请实施例设计了一种用于构建模型训练样本的动态步长机制,对正样本集合中的同类商品去重,可减少同类商品所需要的负样本的数量,达到减少或消除游离正样本的目的,为正样本商品和候选的负样本商品添加合适的标识,可实现负样本商品的选取随机且不重复,可从本质上优化样本质量,实现高质量的模型训练过程。
附图说明
[0019]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中的附图作简单介绍。
[0020]图1是推荐系统的模型示意图。
[0021]图2是为正样本商品选取负样本商品时出现游离正样本的情况示意图。
[0022]图3是本申请实施例的用于构建训练样本的方法的流程示意图。
[0023]图4是利用本申请实施例构建训练样本的原理示意图。
[0024]图5是本申请实施例的用于构建训练样本的装置的结构框图。
[0025]图6是用来实现本申请实施例的用于构建训练样本的方法的电子设备的示意图。
具体实施方式
[0026]以下将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,提供这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何
方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0027]本领域技术人员知晓,本申请的实施方式可以实现为一种系统、装置、设备、方法、计算机可读存储介质或计算机程序产品。因此,本公开可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件与软件结合的形式。
[0028]根据本申请的实施方式,提出一种用于构建训练样本的方法、装置、电子设备及存储介质。
[0029]在本文中,附图中的任何元素数量均用于示例而非限制,附图中任何命名都仅用于区分,而不具有任何限制含义。
[0030]以下参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
[0031]在本领域,用户在输入搜索词并进行请求后,搜索引擎会将与搜索词相关的商品(item)的集合输入粗排模型进行再度筛选,之后送至精排模型,精排处理后商品曝光呈现给用户,系统可记录用户的行为日志(例如点击、收藏、加购物车、支付等),大体上讲,用户行为日志可包括以下商品信息中的一种或多种:召回本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建训练样本的方法,其特征在于,包括:获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为所述预定时间段内产生的第一正样本集合,所述第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;对各个正样本商品列表分别进行去重处理,得到去重的正样本商品列表;对各个去重的正样本商品列表中的各个商品添加第一类标识,确定预设的负样本候选池中各个商品具有第二类标识;根据去重的正样本商品列表中各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个负样本商品,构成对应的负样本商品列表,基于一个或多个负样本商品列表构成所述第一正样本集合对应的第一负样本集合,其中为当前正样本商品选取R个负样本商品时,基于当前正样本商品的第一类标识以及负样本候选池中商品的第二类标识进行选取,以使所述第一负样本集合中不存在重复的商品信息,其中R为预设步长。2.根据权利要求1所述的方法,其特征在于,所述去重处理包括:如果单个正样本商品列表中存在两个或两个以上属性相同的商品,则将所述两个或两个以上属性相同的商品中的一个商品的信息保留,将其中剩余商品信息去除。3.根据权利要求1所述的方法,其特征在于,所述对各个去重的正样本商品列表中的各个商品添加第一类标识,包括:将多个去重的正样本商品列表随机排序;依次对多个去重的正样本商品列表中包含的属性相同的商品进行顺序编号。4.根据权利要求1所述的方法,其特征在于,所述第二类标识为对预设的负样本候选池中属性相同且随机排序的商品的编号。5.根据权利要求1所述的方法,其特征在于,所述根据去重的正样本商品列表中的各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个商品的信息,包括:确定当前正样本商品具有第一类属性;利用下式确定所述当前正样本商品对应的负样本商品的编号:M=ceil(N/R),其中,ceil()为向上取整操作,M为所述当前正样本商品在去重的正样本商品列表中的编号,N为负样本候选池中具有所述第一类属性的商品的编号,N的取值的个数为R个;在负样本候选池中的具有所述第一类属性的商品中,获取编号为N的R个商品的信息,作为所述当前正样本商品对应的R个负样本商品。6.根据权...

【专利技术属性】
技术研发人员:范凯杨生
申请(专利权)人:北京转转精神科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1