训练样本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39040041 阅读：22 留言：0更新日期：2023-10-10 11:53

本申请公开了一种训练样本生成方法、装置、电子设备及存储介质。该方法包括：基于预定时间段内系统的用户行为数据，根据至少第一查询词下的多个搜索会话生成多个正样本商品列表；确定所述第一查询词下的多个商品的一种或多种属性；在所述第一查询词下包括多种属性的情况下，确定所述多种属性中每种属性下的商品数量在所述第一查询词下的商品总数中所占的比例；根据所述多种属性以及所述多种属性对应的所述比例，在负样本候选池中选择多个商品，以构建多个负样本商品列表。利用本申请实施例能够获得高质量的训练样本。能够获得高质量的训练样本。能够获得高质量的训练样本。

全部详细技术资料下载

【技术实现步骤摘要】
训练样本生成方法、装置、电子设备及存储介质

[0001]本申请涉及机器学习和电商平台
，尤其涉及一种训练样本生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]电商平台的搜索引擎根据搜索请求(query)召回商品，召回的商品经过粗排、精排等处理后曝光，供用户挑选购买。关于粗排和精排，参考图1，粗排阶段的整体策略是根据召回结果与query的相关性对召回结果进行筛选、排序，相关性高的商品进入精排；精排阶段可综合考虑多种因素对排序的影响，例如考虑商品的历史销量或当前热度，可使更有可能被用户选中购买的商品得到曝光机会，又如考虑卖家促销因素，将促销商品优先曝光，等等。以上描述的召回曝光策略适用于各类网络平台的搜索引擎或推荐系统。
[0003]其中，粗排处理中的核心问题之一是粗排模型的负样本选择问题。由于系统可记录的日志数据有限，已有的做法大多是基于用户行为(如搜索关键词、浏览曝光商品、点击商品、收藏商品、支付购买商品等)来构建正负样本，例如针对用户输入搜索词之后的一系列行为，以该用户最终支付购买的商品为...

【技术保护点】

【技术特征摘要】
1.一种训练样本生成方法，其特征在于，包括：基于预定时间段内系统的用户行为数据，根据至少第一查询词下的多个搜索会话生成多个正样本商品列表；确定所述第一查询词下的多个商品的一种或多种属性；在所述第一查询词下包括多种属性的情况下，确定所述多种属性中每种属性下的商品数量在所述第一查询词下的商品总数中所占的比例；根据所述多种属性以及所述多种属性对应的所述比例，在负样本候选池中选择多个商品，以构建多个负样本商品列表。2.根据权利要求1所述的方法，其特征在于，所述多个正样本商品列表和所述多个负样本商品列表用于以排序学习LTR技术中的文档列表Listwise方法训练商品搜索系统中的粗排模型。3.根据权利要求1所述的方法，其特征在于，所述预定时间段涉及至少两个自然日。4.根据权利要求1所述的方法，其特征在于，所述用户行为数据包括：用户点击的商品的属性信息和用户支付的商品的属性信息。5.根据权利要求4所述的方法，其特征在于，所述属性信息包括以下至少一项：商品的类型、商品的类目、商品的型号、商品的机型。6.根据权利要求1所述的方法，其特征在于，所述正样本商品列表中包括在单个搜索会话中用户点击和支付的商品的信息。7.根据权利要求1所述的方法，其特征在于，根据所述多种属性以及所述多种属性对应的所述比例，在负样本候选池中选择多个商品，包括：在负样本候选池中获取多个负样本商品，其中所述多个负样本商品包含的属性与所述第一查询词下的所述多种属性相同，并且，所述多个负样本商品中不同属性下的商品数量的比例与所述第一查询词下的所述多种属性对应的所述比例相同；基于所述多个负样本商品构建至少一个负样本商品列表。8.根据权利要求1所述的方法，其特征在于，根据所述多种属性以及所述多种属性对应的所述比例，在负样本候选池中选择多个商品，包括：确定所述第一查询词下的第1～N类属性下的商品数量对应的所述比例为K1:K2:
…
K
N
，其中K
i
代表第i类属性的商品的数量对应的百分比，i＝1～N，N为正整数；在负样本候选池中的所述第1～N类属性的商品集合中，分别随机获取至少K
i
个商品的信息；基于所述至少K
i
个商品的信息构建至少一个负样本商品列表。9.根据权利要求1所述的方法，其特征在于，根据所述多种属性以及所述多种属性对应的所述比例，在负样本候选池中选择多个商品，包括：确定所述第一查询词下包括第i类属性和第i+1类属性，所述第i类属性与所述第i+1类属性下的商品数量对应的所述比例为K
i
:K
i+1
；构建多个临时列表，每个临时列表中包括至少一个第i类属性的商品和至少一个第i+1类属性的商品；对所述多个临时列表添加第一类标识，对负样本候选池中具有所述第i类属性的多个商品添加第二类标识，对负样本候选池中具有所述第i+1类属性的多个商品添加第三类标
识；对于所述多个临时列表中的第j个临时列表，基于所述第j个临时列表对应的第一类标识以及负样本候选池中商品携带的第二类标识，确定K
i
个负样本商品；以及，基于所述第j...

【专利技术属性】
技术研发人员：范凯，杨生，
申请(专利权)人：北京转转精神科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人