用于构建训练样本的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39042045 阅读:27 留言:0更新日期:2023-10-10 11:55
本申请公开了一种用于构建训练样本的方法、装置、电子设备及存储介质。该方法包括:获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为预定时间段内产生的第一正样本集合,第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;对各个正样本商品列表分别进行去重处理,对各个去重的正样本商品列表中的各个商品添加第一类标识,根据去重的正样本商品列表中各个正样本商品的属性,为各个正样本商品分别选取负样本商品,构成对应的负样本商品列表,基于负样本商品列表构成第一负样本集合。利用本申请实施例能够获得高质量的训练样本。得高质量的训练样本。得高质量的训练样本。

【技术实现步骤摘要】
用于构建训练样本的方法、装置、电子设备及存储介质


[0001]本申请涉及机器学习和电商平台
,尤其涉及一种用于构建训练样本的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]电商平台的搜索引擎根据搜索请求(query)召回商品,召回的商品经过粗排、精排等处理后曝光,供用户挑选购买。关于粗排和精排,参考图1,粗排阶段的整体策略是根据召回结果与query的相关性对召回结果进行筛选、排序,相关性高的商品进入精排;精排阶段可综合考虑多种因素对排序的影响,例如考虑商品的历史销量或当前热度,可使更有可能被用户选中购买的商品得到曝光机会,又如考虑卖家促销因素,将促销商品优先曝光,等等。以上描述的召回曝光策略适用于各类网络平台的搜索引擎或推荐系统。
[0003]其中,粗排处理中的核心问题之一是粗排模型的负样本选择问题。由于系统可记录的日志数据有限,已有的做法大多是基于用户行为(如搜索关键词、浏览曝光商品、点击商品、收藏商品、购买商品等)来构建正负样本,例如针对用户输入搜索词之后的一系列行为,以该用户最终购买的商品为该次搜索的正样本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于构建训练样本的方法,其特征在于,包括:获取预定时间段内多个用户的点击及支付商品的信息,将其中属于第一目标查询词的点击及支付商品的信息确定为所述预定时间段内产生的第一正样本集合,所述第一正样本集合中来自同一个会话的商品属于同一个正样本商品列表;对各个正样本商品列表分别进行去重处理,得到去重的正样本商品列表;对各个去重的正样本商品列表中的各个商品添加第一类标识,确定预设的负样本候选池中各个商品具有第二类标识;根据去重的正样本商品列表中各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个负样本商品,构成对应的负样本商品列表,基于一个或多个负样本商品列表构成所述第一正样本集合对应的第一负样本集合,其中为当前正样本商品选取R个负样本商品时,基于当前正样本商品的第一类标识以及负样本候选池中商品的第二类标识进行选取,以使所述第一负样本集合中不存在重复的商品信息,其中R为预设步长。2.根据权利要求1所述的方法,其特征在于,所述去重处理包括:如果单个正样本商品列表中存在两个或两个以上属性相同的商品,则将所述两个或两个以上属性相同的商品中的一个商品的信息保留,将其中剩余商品信息去除。3.根据权利要求1所述的方法,其特征在于,所述对各个去重的正样本商品列表中的各个商品添加第一类标识,包括:将多个去重的正样本商品列表随机排序;依次对多个去重的正样本商品列表中包含的属性相同的商品进行顺序编号。4.根据权利要求1所述的方法,其特征在于,所述第二类标识为对预设的负样本候选池中属性相同且随机排序的商品的编号。5.根据权利要求1所述的方法,其特征在于,所述根据去重的正样本商品列表中的各个正样本商品的属性,在负样本候选池中为各个正样本商品分别选取R个商品的信息,包括:确定当前正样本商品具有第一类属性;利用下式确定所述当前正样本商品对应的负样本商品的编号:M=ceil(N/R),其中,ceil()为向上取整操作,M为所述当前正样本商品在去重的正样本商品列表中的编号,N为负样本候选池中具有所述第一类属性的商品的编号,N的取值的个数为R个;在负样本候选池中的具有所述第一类属性的商品中,获取编号为N的R个商品的信息,作为所述当前正样本商品对应的R个负样本商品。6.根据权...

【专利技术属性】
技术研发人员:范凯杨生
申请(专利权)人:北京转转精神科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1