训练时序预测模型、预测行为序列的方法和装置制造方法及图纸

技术编号:37356188 阅读:12 留言:0更新日期:2023-04-27 07:06
本说明书实施例提供一种训练时序预测模型,以及利用该模型进行预测的方法和装置,其中时序预测模型包括,自回归预测模型和能量计算模型。训练方法包括:获取标签行为序列,其中包括,用户在第一时段中的第一行为序列,以及在后续的第二时段中的行为序列。将第一行为序列输入自回归预测模型,得到对于第二时段中依次发生行为的概率分布信息。基于概率分布信息进行采样,得到N个采样行为序列,与第一行为序列拼接得到N个采样全序列。利用能量计算模型,确定标签行为序列的标签能量值,以及N个采样全序列各自的采样能量值。以目标函数的函数值趋于增大为目标,训练能量计算模型;其中目标函数与标签能量值负相关,与采样能量值正相关。关。关。

【技术实现步骤摘要】
训练时序预测模型、预测行为序列的方法和装置


[0001]本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用机器学习的方式,训练时序预测模型,以及利用时序预测模型预测用户行为序列的方法和装置。

技术介绍

[0002]随着计算机技术的发展,机器学习已经应用到各种各样的
,用于分析、预测各种业务数据。在互联网环境中,用户行为是常见的分析来源。
[0003]用户行为是随时间线而发生的一系列用户动作,这些动作包括,例如,登录、搜索、点击、访问网页时收藏某个页面、购买某个商品、将某个商品加入购物车(加购),等等。对用户个体行为进行建模和分析,可以直接地用于理解该用户的个体偏好和用户意图,进而有助于为用户提供针对性的、个性化的服务。
[0004]由此,希望能有改进的方案,可以更为有效地对一个时段内的用户行为序列进行整体预测,从而便于服务平台更好地针对用户进行业务部署。

技术实现思路

[0005]本说明书一个或多个实施例描述了一种训练时序预测模型的方案,以及利用这样的时序预测模型预测用户行为序列的方案,可以更准确地进行长周期中用户行为序列的预测,提升预测性能。
[0006]根据第一方面,提供了一种训练时序预测模型的方法,所述时序预测模型包括,自回归预测模型和能量计算模型,所述方法包括:
[0007]获取标签行为序列,其中包括,样本用户在第一时段中的第一行为序列,以及在接续第一时段的第二时段中的第二行为序列;
[0008]将所述第一行为序列输入所述自回归预测模型进行模型处理,通过逐个预测下一行为,得到对于第二时段中依次发生行为的概率分布信息;
[0009]基于所述概率分布信息进行采样,得到N个采样行为序列;
[0010]利用所述能量计算模型,确定标签行为序列的标签能量值,以及N个采样全序列各自的采样能量值;所述N个采样全序列,是所述第一行为序列分别与N个采样行为序列拼接的序列;
[0011]以目标函数的函数值趋于增大为目标,调整所述能量计算模型中的模型参数;其中所述目标函数与所述标签能量值负相关,与所述采样能量值正相关。
[0012]在一个实施例中,在将所述第一行为序列输入所述自回归预测模型进行模型处理之前,还包括:基于行为序列样本,以该样本中用户行为序列的时序点过程的似然性最大化为目标,训练所述自回归预测模型。
[0013]根据一种实施方式,自回归的预测模型中的模型处理包括,将所述第一行为序列作为初始的当前行为序列,执行多次迭代过程,任意迭代过程包括:利用所述自回归模型处理当前行为序列,确定下一行为的预测概率信息;根据所述预测概率信息确定下一预测行
为,将其添加到当前行为序列中,作为更新的当前行为序列;所述预测概率分布包括,多次迭代分别得到的预测概率信息。
[0014]在一个实施例中,上述预测概率信息包括,下一行为属于预设的多种行为类别中各个类别的概率,下一行为发生时间的置信度。
[0015]在另一实施例中,上述预测概率信息包括,各个行为类别的强度函数值。
[0016]在一个示例中,基于所述概率分布信息进行采样包括,利用细化算法,基于强度函数值进行采样。
[0017]根据一种实施方式,能量计算模型包括transformer神经网络和多层感知机MLP,其中,所述transformer神经网络用于对输入行为序列进行注意力处理,得到表征整个行为序列的固定维度的向量;所述MLP用于将该固定维度的向量映射处理为标量,作为输入行为序列的能量值。
[0018]根据一种实现方式,目标函数包含第一项和第二项之和,其中第一项为基于所述标签能量值确定的标签行为序列为真实行为序列的似然度,其与所述标签能量值负相关;第二项为各个采样全序列不是真实行为序列的似然度之和,其与各个采样能量值正相关。
[0019]根据另一种实现方式,目标函数包含第三项和第四项之和,其中第三项为标签能量值的相反数;第四项负相关于所述标签行为序列和N个采样全序列形成的N+1个行为序列的指标分数之和,各指标分数与对应行为序列的能量值负相关。
[0020]在一个实施例中,目标函数还包括正则项,所述正则项用于将任一采样全序列的采样能量值和标签能量值的差值,约束在基于目标距离确定的边界范围中,所述目标距离为该采样全序列与标签行为序列之间的序列距离。
[0021]根据第二方面,提供了一种预测用户行为序列的方法,该方法利用预先训练的时序预测模型进行,所述时序预测模型包括,自回归预测模型和能量计算模型,所述方法包括:
[0022]获取目标用户在第一时段中的目标行为序列;
[0023]将所述目标行为序列输入所述自回归预测模型进行模型处理,通过逐个预测下一行为,得到对于待预测的第二时段中依次发生行为的概率分布信息;
[0024]基于所述概率分布信息进行采样,得到M个备选行为序列;
[0025]利用所述能量计算模型,确定M个备选全序列对应的M个能量值,所述M个备选全序列为所述目标行为序列分别与M个备选行为序列拼接的序列;
[0026]根据所述M个能量值,确定所述M个备选行为序列的M个权重值;
[0027]根据所述M个备选行为序列和所述M个权重值,确定所述第二时段中的预测行为序列。
[0028]在一个实施例中,确定所述第二时段中的预测行为序列,包括:将权重值最大的备选行为序列,确定为所述预测行为序列。
[0029]在另一实施例中,确定所述第二时段中的预测行为序列,包括:基于所述M个权重值组合所述M个备选行为序列,根据组合结果得到所述预测行为序列
[0030]根据第三方面,提供了一种训练时序预测模型的装置,所述时序预测模型包括,自回归预测模型和能量计算模型,所述装置包括:
[0031]标签获取单元,配置为获取标签行为序列,其中包括,样本用户在第一时段中的第
一行为序列,以及在接续第一时段的第二时段中的第二行为序列;
[0032]第一预测单元,配置为将所述第一行为序列输入所述自回归预测模型进行模型处理,通过逐个预测下一行为,得到对于第二时段中依次发生行为的概率分布信息;
[0033]采样单元,配置为基于所述概率分布信息进行采样,得到N个采样行为序列;
[0034]能量确定单元,配置为利用所述能量计算模型,确定标签行为序列的标签能量值,以及N个采样全序列各自的采样能量值;所述N个采样全序列,是所述第一行为序列分别与N个采样行为序列拼接的序列;
[0035]参数调整单元,配置为以目标函数的函数值趋于增大为目标,调整所述能量计算模型中的模型参数;其中所述目标函数与所述标签能量值负相关,与所述采样能量值正相关。
[0036]根据第四方面,提供了一种预测用户行为序列的装置,该装置利用预先训练的时序预测模型进行,所述时序预测模型包括,自回归预测模型和能量计算模型,所述装置包括:
[0037]序列获取单元,配置为获取目标用户在第一时段中的目标行为序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练时序预测模型的方法,所述时序预测模型包括,自回归预测模型和能量计算模型,所述方法包括:获取标签行为序列,其中包括,样本用户在第一时段中的第一行为序列,以及在接续第一时段的第二时段中的第二行为序列;将所述第一行为序列输入所述自回归预测模型进行模型处理,通过逐个预测下一行为,得到对于第二时段中依次发生行为的概率分布信息;基于所述概率分布信息进行采样,得到N个采样行为序列;利用所述能量计算模型,确定标签行为序列的标签能量值,以及N个采样全序列各自的采样能量值;所述N个采样全序列,是所述第一行为序列分别与N个采样行为序列拼接的序列;以目标函数的函数值趋于增大为目标,调整所述能量计算模型中的模型参数;其中所述目标函数与所述标签能量值负相关,与所述采样能量值正相关。2.根据权利要求1所述的方法,其中,在将所述第一行为序列输入所述自回归预测模型进行模型处理之前,还包括:基于行为序列样本,以该样本中用户行为序列的时序点过程的似然性最大化为目标,训练所述自回归预测模型。3.根据权利要求1所述的方法,其中,所述模型处理包括,将所述第一行为序列作为初始的当前行为序列,执行多次迭代过程,任意迭代过程包括:利用所述自回归模型处理当前行为序列,确定下一行为的预测概率信息;根据所述预测概率信息确定下一预测行为,将其添加到当前行为序列中,作为更新的当前行为序列;所述预测概率分布包括,多次迭代分别得到的预测概率信息。4.根据权利要求3所述的方法,其中,所述预测概率信息包括,下一行为属于预设的多种行为类别中各个类别的概率,下一行为发生时间的置信度。5.根据权利要求3所述的方法,其中,所述预测概率信息包括,各个行为类别的强度函数值。6.根据权利要求5所述的方法,其中,基于所述概率分布信息进行采样包括,利用细化算法,基于强度函数值进行采样。7.根据权利要求1所述的方法,其中,所述能量计算模型包括transformer神经网络和多层感知机MLP,其中,所述transformer神经网络用于对输入行为序列进行注意力处理,得到表征输入行为序列的固定维度的向量;所述MLP用于将该固定维度的向量映射处理为标量,作为输入行为序列的能量值。8.根据权利要求1所述的方法,其中,所述目标函数包含第一项和第二项之和,其中第一项为基于所述标签能量值确定的标签行为序列为真实行为序列的似然度,其与所述标签能量值负相关;第二项为各个采样全序列不是真实行为序列的似然度之和,其与各个采样能量值正相关。9.根据权利要求1所述的方法,其中,所述目标函数包含第三项和第四项之和,其中第三项为标签能量值的相反数;第四项负相关于所述标签行为序列和N个采样全序列形成的N+1个行为序列的指标分数之和,各指标分数与对应行为序列的能量值负相关。
10.根据权利要求8或9所述的方法,其中,所述目标函数还包括正则项,所述正则项用于将任一采样全序列的采样能量值和标签能量值的差值,约束在基于目标距离确定的边界范围中,所述目标距离为该采样全序列与标签行为序列之间的序列距离。11.一种预测用户行为序列的方法,该方法利...

【专利技术属性】
技术研发人员:薛思乔师晓明蒋才高郝鸿延王言蒋刚玮
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1