【技术实现步骤摘要】
一种目标用户的选择方法和装置
本说明书涉及机器学习
,特别涉及一种目标用户的选择方法和装置。
技术介绍
在市场营销中常常碰到这样的情况:营销部门做了很多研究,认为已经把握了用户的特点,于是按照这些用户特点挑选用户作为营销目标。但活动推出后结果令人失望:试验组(参加了营销的用户)和控制组(没有参加营销的用户)的净提升响应没有明显的差别。之所以出现这种情况,原因在于没有区分可受营销影响的用户和不受营销影响的用户,应该去寻找可受营销影响的用户进行营销才能最大化净提升响应。该可受营销影响的用户即用户在有营销情况下的响应与无营销情况下的响应存在明显差别。
技术实现思路
有鉴于此,本说明书一个或多个实施例提供一种目标用户的选择方法和装置。具体地,本说明书一个或多个实施例是通过如下技术方案实现的:第一方面,提供一种目标用户的选择方法,所述方法用于由待选用户群体中选择部分用户作为目标用户,以对所述目标用户执行目标业务操作,所述方法包括:对于所述待选用户群体中的每一个用户,分别执行如下处理:将 ...
【技术保护点】
1.一种目标用户的选择方法,所述方法用于由待选用户群体中选择部分用户作为目标用户,以对所述目标用户执行目标业务操作,所述方法包括:/n对于所述待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;/n根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。/n
【技术特征摘要】
1.一种目标用户的选择方法,所述方法用于由待选用户群体中选择部分用户作为目标用户,以对所述目标用户执行目标业务操作,所述方法包括:
对于所述待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;
根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。
2.根据权利要求1所述的方法,所述将所述用户的用户特征输入预先训练的策略决定网络,包括:
将所述用户的如下至少一项用户特征输入预先训练的策略决定网络:用户年龄、用户性别、用户地理位置信息或者用户的商品购买历史数据。
3.根据权利要求1所述的方法,所述得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,包括:
得到所述策略决定网络预测输出的各个业务操作分别对应的操作奖励值,所述各个业务操作包括所述目标业务操作和至少一个其他业务操作。
4.根据权利要求3所述的方法,所述目标业务操作用于表示对所述用户执行营销策略,所述其他业务操作用于表示对所述用户不执行营销策略。
5.根据权利要求1所述的方法,所述根据待选用户群体中各个用户的所述操作奖励值,选择操作奖励值符合筛选条件的用户作为所述目标用户,包括:
将所述待选用户群体中各个用户分别对应的操作奖励值进行排序;
根据排序结果选择所述待选用户群体中的部分用户作为所述目标用户。
6.根据权利要求5所述的方法,所述操作奖励值是概率值;所述将所述待选用户群体中各个用户分别对应的操作奖励值进行排序,包括:
将所述待选用户群体中各个用户分别对应的概率值,按照概率值由高到低的顺序排序;所述概率值越高表示净提升响应越大。
7.根据权利要求1~6任一所述的方法,所述策略决定网络,是通过强化学习方式训练得到的深度神经网络。
8.根据权利要求7所述的方法,所述策略决定网络的训练过程包括:
获取训练样本集合,所述训练样本集合中的每一个训练样本包括:样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值;
分别将每个样本用户的用户特征输入待训练的策略决定网络,得到所述策略决定网络预测输出的所述样本用户对应的所述目标业务操作的操作奖励值;
根据所述各个样本用户的操作奖励值,由训练样本集合中选择操作奖励值符合筛选条件的多个样本用户作为目标样本用户集合,所述训练样本集合中的剩余用户作为非目标样本用户集合;
根据所述响应值,确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异;
将所述累积收益差异作为奖赏值返回给所述策略决定网络,并根据所述奖赏值调整所述策略决定网络的网络参数。
9.根据权利要求8所述的方法,所述根据所述响应值,确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异,包括:
由集合中选择多种用户比例的子用户群,所述子用户群是由目标样本用户集合中按照操作奖励值选择得到,或者由非目标样本用户集合中随机选择得到;
对于每一种所述用户比例,将所述子用户群中各个样本用户的所述响应值进行累加,得到对应所述用户比例的累加和;以所述用户比例作为横坐标,以对应所述用户比例的累加和作为纵坐标,得到对应的一个曲线样本点;
拟合多个用户比例对应的多个曲线样本点,得到第一曲线和第二曲线,所述第一曲线是目标样本用户集合对应的多个曲线样本点拟合得到,所述第二曲线是非目标样本用户集合对应的多个曲线样本点拟合得到;
获取所述第一曲线和第二曲线之间的包围区域的面积,作为所述目标样...
【专利技术属性】
技术研发人员:李晨晨,阎翔,乔俊龙,屈超,熊君武,宋乐,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。