【技术实现步骤摘要】
一种训练推荐模型的方法和系统
本申请涉及计算机
,特别涉及一种训练推荐模型方法和系统。
技术介绍
随着人工智能的发展,机器学习模型越来越多的应用到人们的生产生活领域,并且发挥着更加智慧的决策作用。例如,可以基于用户的个人属性、历史行为习惯等数据,向用户推荐更加适配的商品或服务,以促成交易等目的的实现。在一些具体应用场景中,推荐结果可能是从大量候选标的中选取的一个,甚至可能从连续数值空间中选取的某一个数值点。因此现有的基于有限候选标的推荐的分类思想的机器学习模型难以实现此类推荐任务。所以,本说明书提供了一种训练推荐推荐模型的方法和系统,来得到一个基于策略的推荐模型,通过该推荐模型可以基于某一策略从候选标的空间(或集合)中选取更优的标的进行推荐。
技术实现思路
本说明书一个方面提供一种训练推荐模型的方法。所述方法包括:获得状态转移模型和奖励模型;所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态;所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励,所述对象的 ...
【技术保护点】
1.一种训练推荐模型的方法,包括:/n获得状态转移模型和奖励模型;所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态;所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励,所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态;/n获得多个训练样本,所述训练样本至少包括样本对象的当前时点状态;/n构建推荐模型,所述推荐模型用于根据对象的当前时点状态预测推荐标的分布;/n对于所述多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:/n利用所述推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐 ...
【技术特征摘要】
1.一种训练推荐模型的方法,包括:
获得状态转移模型和奖励模型;所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述对象的下一时点状态;所述奖励模型用于根据所述对象的当前时点状态和推荐标的确定奖励,所述对象的下一时点状态表示向所述对象推荐所述推荐标的后该对象的状态;
获得多个训练样本,所述训练样本至少包括样本对象的当前时点状态;
构建推荐模型,所述推荐模型用于根据对象的当前时点状态预测推荐标的分布;
对于所述多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:
利用所述推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从所述推荐标的分布的预测推荐标的;
利用所述状态转移模型处理样本对象的当前时点状态以及所述预测推荐标的,得到样本对象的下一时点状态;
计算所述样本对象的下一时点状态相关的收益;
利用所述奖励模型处理样本对象的当前时点状态及所述预测推荐标的,得到预测奖励;
确定所述推荐模型的目标函数,其中,所述推荐模型的目标函数至少与所述预测奖励以及所述样本对象的下一时点状态相关的收益正相关;
调整所述推荐模型的参数,以使其目标函数最大化。
2.如权利要求1所述的方法,所述计算所述样本对象的下一时点状态相关的收益,还包括:
利用价值模型处理所述样本对象的下一时点状态得到其对应的总体收益。
3.如权利要求2所述的方法,所述训练样本还包括历史推荐标的、向所述样本对象推荐所述历史推荐标的之后该样本对象的下一时点状态以及与所述历史推荐标的相关的历史奖励;
所述方法还包括:
构建价值模型和Q值模型,所述价值模型用于根据对象的当前时点状态计算总体收益,所述Q值模型用于根据对象的当前时点状态和推荐标的计算向所述对象推荐该推荐标的后的总体收益;
对于所述多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型中,所述以下步骤还包括:
为所述价值模型与Q值模型分别建立目标函数,其中,
所述Q值模型的目标函数基于训练样本中的历史奖励与基于价值模型得到的样本对象的下一时点状态对应的总体收益的至少一部分之和与Q值模型的输出的差异构建;所述Q值模型的输出基于样本对象的当前时点状态与历史推荐标的得到;
所述价值模型的目标函数基于Q值模型得到的样本对象的当前时点状态与历史推荐标的对应的总体收益与动作熵的和值与价值模型的输出的差异构建;所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得,所述价值模型的输出基于样本对象的当前时点状态得到;
调整所述价值模型与Q值模型的参数,分别以使其目标函数最小化。
4.如权利要求1所述的方法,所述推荐模型的目标函数还与所述动作熵正相关,所述动作熵基于所述推荐模型根据样本对象的当前时点状态预测的推荐标的分布获得。
5.如权利要求3所述的方法,所述训练样本基于交易数据获取;其中,
所述样本对象的当前时点状态包括样本用户在当前交易时点下的交易状态特征,
所述历史推荐标的包括向样本用户推荐的与目标支付渠道关联的交易权益比例,
所述样本对象的下一时点状态包括向所述样本用户推荐所述历史推荐标的后样本用户在下一交易时点下的交易状态特征,
所述历史奖励与向样本用户推荐所述历史推荐标的后样本用户产生的交易金额相关;
所述交易状态特征反映在以下信息的一种或多种:用户的个人属性信息、交易时间、交易金额、交易平台和历史支付渠道信息。
6.如权利要求3所述的方法,还包括:
所述状态转移模型和奖励模型利用所述训练样本通过监督学习进行训练得到。
7.如权利要求1所述的方法,所述推荐模型输出的推荐标的分布包括所述推荐标的的均值和方差。
8.一种基于推荐模型的交易权益推荐方法,包括:
获取目标用户在当前交易时点下的交易状态特征;所述当前交易时点早于支付时点;
利用推荐模型处理所述交易状态特征,得到与目标支付渠道关联的交易权益比例分布;所述推荐模型基于权利要求1~7中任一项所述的方法获得;
确定某一服从所述交易权益比例分布的交易权益比例;
将所述交易权益比例联合所述目标支付渠道推荐给所述目标用户。
9.一种训练推荐模型的系统,包括:
第一模型构建模块:用于获得状态转移模型和奖励模型;所述状态转移模型用于根据对象的当前时点状态和推荐标的确定所述...
【专利技术属性】
技术研发人员:谭晓宇,屈超,蒋才高,徐海瑞,熊君武,詹姆士·张,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。