一种数据处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:23559276 阅读:60 留言:0更新日期:2020-03-25 04:36
本申请公开了一种数据处理方法、装置以及计算机可读存储介质,该方法包括:获取包括多个业务对象的业务对象集合;获取目标用户针对多个业务对象的浏览状态,根据浏览状态和业务对象集合,确定目标用户的目标正样本集合和目标负样本集合;获取目标用户的用户行为集合;用户行为集合中包括目标用户针对多个业务对象的评价操作行为;根据评价操作行为的评价类型,在用户行为集合中获取目标用户的辅助正样本集合和辅助负样本集合;基于目标正样本集合、目标负样本集合、辅助正样本集合、辅助负样本集合和词向量模型,生成业务对象集合中的每个业务对象分别对应的对象属性向量。采用本申请,提高了所生成的业务对象的对象属性向量的准确性。

A data processing method, device and computer readable storage medium

【技术实现步骤摘要】
一种数据处理方法、装置以及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
技术介绍
随着计算机网络的不断发展,网上购物的购物方式也快速普及并流行起来。其中,购物对象的类型也是多种多样,例如针对服饰的购物、针对食品的购物以及针对虚拟货物的购物等。其中,在用户进行网上购物的过程中,向用户推荐相关的购物对象(即商品,例如上述服饰、食品以及虚拟货币)的方式通常是将购物对象进行向量化。通过将购物对象进行向量化可以得到购物对象的向量化表示,可以用每个购物对象对应的向量化表示来表征每个购物对象的对象特征,因此,可以通过每个购物对象的向量化表示来向用户推荐适合的购物对象。现有技术中,在对购物对象进行向量化时,是通过在模型中训练购物对象本身所具备的属性特征(例如购物对象本身的物品类型特征),进而得到购物对象的向量化表示。当通过此种方式得到的向量化表示向用户推荐购物对象时,并不能预估用户针对所推荐的购物对象感兴趣的程度,导致向用户推荐的购物对象并不准确。由此可知,通过此种方法所得到的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取业务对象集合,所述业务对象集合中包括多个业务对象;/n获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;/n获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;/n根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;/n基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应...

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取业务对象集合,所述业务对象集合中包括多个业务对象;
获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。


2.根据权利要求1所述的方法,其特征在于,所述浏览状态包括已浏览状态和未浏览状态;所述根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合,包括:
根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;
根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合。


3.根据权利要求2所述的方法,其特征在于,所述根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合,包括:
获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象,一个正样本业务对象对应于至少一个浏览时间戳;
根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合,所述正样本序列中包括所述每个正样本业务对象分别对应的对象标识。


4.根据权利要求2所述的方法,其特征在于,所述根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合,包括:
将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;
根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象,所述负样本业务对象的对象数量等于所述目标数量和所述样本抽取倍数的乘积;
将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合。


5.根据权利要求1所述的方法,其特征在于,所述评价类型包括正面评价类型和负面评价类型;所述用户行为集合包括多个对象操作样本,一个对象操作样本包括一个业务对象的对象标识以及所述目标用户针对该业务对象的一个评价操作行为的行为标识;
所述根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合,包括:
将所述用户行为集合中,包含具有所述正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;
将所述用户行为集合中,包含具有所述负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合。


6.根据权利要求5所述的方法,其特征在于,所述目标正样本集合中的每个业务对象均具有对象标识;
所述基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量,包括:
在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量。


7.根据权利要求6所述的方法,其特征在于,所述目标负样本集合中的每个业务对象均具有对象标识;
所述基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量,包括:
基于高斯分布生成所述业务对象集合中的每个业务对象分别对应的初始向量,将每个初始向量分别与所对应的业务对象的对象标识相关联;
在所述目标负样本集合中获取第一待训练对象标识,在所述辅助正样本集合中获取第一待训练对象操作样本,在所述辅助负样本集合中获取第二待训练对象操作样本;
获取所述第一待训练对象操作样本中的行为标识所对应的第一行为权重值,获取所述第二待训练对象操作样本中的行为标识所对应的第二行为权重值;
将所述对象标识sj、所述邻居对象标识、所述第一待训练对象标识、所述第一待训练对象操作样本中的对象标识和所述第二待训练对象操作样本中的对象标识分别关联的初始向量,均确定为待训练初始向量;
基于所述待训练初始向量、所述第一行为权...

【专利技术属性】
技术研发人员:陈亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1