用户表征网络的训练方法及装置制造方法及图纸

技术编号:32127979 阅读:27 留言:0更新日期:2022-01-29 19:20
本说明书实施例提供一种用户表征网络的训练方法,包括:将无偏样本的用户特征输入经过预训练的第一用户表征网络,得到第一用户表征向量,并且,将有偏样本的用户特征输入第二用户表征网络,得到第二用户表征向量,其中无偏样本和有偏样本分别通过向用户发放由随机策略和非随机策略确定的权益份额而采集;将得到的两个用户表征向量分别输入判别器,得到对应两个判别结果;以最小化目标函数的函数值为目标,训练判别器,该函数值与第一损失和第二损失正相关,第一损失基于无偏样本对应的判别结果和无偏标识而确定,第二损失基于有偏样本对应的判别结果和有偏标识而确定;以最大化目标函数的函数值为目标,对第二用户表征网络进行训练。行训练。行训练。

【技术实现步骤摘要】
用户表征网络的训练方法及装置


[0001]本说明书一个或多个实施例涉及机器学习
,尤其涉及一种用户表征网络的训练方法及装置、一种用户行为预测系统的训练方法及装置、一种用户行为的预测方法及装置。

技术介绍

[0002]随着经济的发展和社会的进步,涌现越来越多的服务平台为用户提供各式各样的服务,以满足用户在生活、工作中的多种需求。服务平台为了帮助用户找到符合其需求的服务,会采用发放权益的方式,吸引用户体验平台推出的一项或多项服务。通常情况下,服务平台向用户发放权益的权益总额是有限的,为了使尽可能多的用户能够切实享受到权益,需要合理、有效地确定出向单个用户发放的权益份额。
[0003]然而,目前确定权益份额的方式难以满足实际应用的需求。因此,需要一种方案,可以精准地确定出向用户发放的权益份额,从而尽可能多的满足多数用户的期望,有效提升用户体验。

技术实现思路

[0004]本说明书一个或多个实施例描述了针对用户表征网络进行训练的方法及装置,针对用户行为预测系统进行训练的方法及装置、用户行为的预测方法及装置,通过引入对抗学习本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户表征网络的训练方法,包括:将无偏样本集中第一无偏样本的用户特征输入经过预训练的第一用户表征网络,得到第一用户表征向量;所述无偏样本集通过向用户发放由随机策略确定的权益份额而采集;将有偏样本集中第一有偏样本的用户特征输入第二用户表征网络,得到第二用户表征向量;所述有偏样本集通过向用户发放由非随机策略确定的权益份额而采集;将所述第一用户表征向量和第二用户表征向量分别输入判别器,得到对应的第一判别结果和第二判别结果;以最小化目标函数的函数值为目标,训练所述判别器,所述函数值与第一损失和第二损失正相关,所述第一损失基于所述第一判别结果和无偏样本对应的无偏标识而确定,所述第二损失基于所述第二判别结果和有偏样本对应的有偏标识而确定;以最大化所述目标函数的函数值为目标,对所述第二用户表征网络进行训练。2.根据权利要求1所述的方法,其中,所述有偏样本集的样本数大于所述无偏样本集的样本数。3.根据权利要求1所述的方法,其中,所述无偏样本集中各个无偏样本具有行为标签,用于指示对应用户是否对对应份额的权益进行核销;所述第一用户表征网络通过以下步骤进行预训练:将所述无偏样本集中第二无偏样本中的用户特征输入第一用户表征网络,得到第三用户表征向量;将所述第三用户表征向量和第二无偏样本中的权益份额输入第一行为预测网络,得到第一预测结果;基于所述第一预测结果和所述第二无偏样本的行为标签,对所述第一用户表征网络和第一行为预测网络进行训练。4.根据权利要求3所述的方法,其中,所述第一行为预测网络中的参数包括第一参数矩阵和第二参数矩阵;其中,将所述第三用户表征向量和第二无偏样本中的权益份额输入第一行为预测网络,得到第一预测结果,包括:分别利用所述第一参数矩阵和第二参数矩阵对所述第三用户表征向量进行线性变换,得到第一变换值和第二变换值;利用激活函数处理乘积结果和所述第二变换值之间的和值,得到所述第一预测结果,所述乘积结果的运算因子包括利用Softplus函数处理所述第一变换值得到的结果和所述权益份额。5.根据权利要求3所述的方法,其中,所述第一行为预测网络包括第一权益嵌入层、第一融合层和第一预测层;其中,将所述第三用户表征向量和第二无偏样本中的权益份额输入第一行为预测网络,得到第一预测结果,包括:在所述第一权益嵌入层,对所述权益份额进行嵌入处理,得到权益嵌入向量;在所述第一融合层,对所述第三用户表征向量和权益嵌入向量进行融合处理,得到融合向量;在所述第一预测层,对所述融合向量进行线性变换和/或非线性变换处理,得到所述第一预测结果。6.根据权利要求1所述的方法,其中,所述有偏样本集中的各个有偏样本具有行为标
签,用于指示对应用户是否对对应份额的权益进行核销;在将有偏样本集中第一有偏样本的用户特征输入第二用户表征网络之前,所述方法还包括:基于所述行为标签,对所述第二用户表征网络进行预训练。7.根据权利要求6所述的方法,其中,基于所述行为标签,对所述第二用户表征网络进行预训练,包括:将所述有偏样本集中第二有偏样本的用户特征输入第二用户表征网络,得到第四用户表征向量;将所述第四用户表征向量和第二有偏样本中的权益份额输入第二行为预测网络,得到第二预测结果;基于所述第二预测结果和所述第二有偏样本的行为标签,对所述第二用户表征网络和第二行为表征网络进行训练。8.一种用户行为预测系统的训练方法,所述用户行为预测系统包括第二用户表征网络和第二行为预测网络,所述方法包括:获取根据权利要求1的方法经过训练的第二用户表征网络;将第三有偏样本中的用户特征输入所述第二用户表征网络,得到第五用户表征向量;所述第三有偏样本通过向用户发放由非随机策略确定的权益份额而采集,并具有指示对应用户是否对对应份额的权益进行核销的行为标签;将所述第五用户表征向量和所述第三有偏样本中的权益份额输入所述第二行为预测网络,得到第三预测结果;基于所述第三预测结果和所述行为标签,训练所述第二行为预测网络。9.根据权利要求8所述的方法,其中,所述第二行为预测网络中的参数包括第三参数矩阵和第四参数矩阵;其中,将所述第五用户表征向量和第三有偏样本中的权益份额输入第二行为预测网络,得到第三预测结果,包括:分别利用所述第三参数矩阵和第四参数矩阵对所述第五用户表征向量进行线性变换,得到第三变换值和第四变换值;利用激活函数处理乘积结果和所述第四变换值之间的和值,得到所述第三预测结果,所述乘积结果的运算因子包括利用Softplus函数处理所述...

【专利技术属性】
技术研发人员:陈炫颖刘致宁俞力顾立宏
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1