行为预测模型的训练方法及装置制造方法及图纸

技术编号：25692029 阅读：23 留言：0更新日期：2020-09-18 21:03

本说明书实施例提供一种行为预测模型的训练方法，包括：先确定针对目标对象的多个样本用户，其中任一的第一样本用户对应第一样本硬标签，指示是否对该目标对象做出特定行为；再基于利用训练后的图神经网络对用户‑对象二部图进行图嵌入处理而确定的嵌入向量集，确定对应于第一样本用户的样本用户特征向量以及对应于目标对象的目标对象特征向量，进而确定第一样本用户对目标对象做出特定行为的特定行为概率，作为第一样本软标签，并且，将该样本用户特征向量输入第一行为预测模型中，得到行为预测结果；利用基于该预测结果和第一样本硬标签确定的第一损失项，以及基于该预测结果和第一样本软标签确定的第二损失项，训练该第一行为预测模型。

全部详细技术资料下载

【技术实现步骤摘要】
行为预测模型的训练方法及装置
本说明书实施例涉及计算机
，尤其涉及一种行为预测模型的训练方法及装置。
技术介绍
当前，服务平台通常会向用户进行产品或内容等业务对象的推荐或推送，例如，推荐一些网络课程、服装商品、广告图片等。随着业务对象数量的累积增长，以及不断涌现新的业务对象，为了提高用户体验，需要及时、准确地向用户推荐符合其需求和偏好的业务对象，相应地，服务平台可以利用机器学习模型预测用户行为，具体预测某用户是否会对某业务对象做出特定行为，从而根据预测结果确定是否向该某用户推荐该某业务对象，例如，通过预测某用户是否会对某篇文章进行浏览，确定是否向该用户推送该篇文章，又例如，通过预测某用户是否会购买某商品，确定是否向该用户推荐该商品。显然，希望上述针对用户行为的预测能够尽可能的及时、准确。然而，目前预测用户行为的方式较为单一，预测的速度和准确度也十分有限。因此，需要一种方案，可以有效提高用户行为预测的及时性和准确性。
技术实现思路
采用本说明书描述的行为预测模型的训练方法及装置，可以同时有效提高行为预测模型的训练速度和模型性能，从而提高用户行为预测的及时性和准确性。根据第一方面，提供一种行为预测模型的训练方法，包括：确定针对目标对象的多个样本用户，其中任一的第一样本用户对应第一样本硬标签，该第一样本硬标签指示该第一样本用户是否对所述目标对象做出特定行为；基于预先确定的嵌入向量集，确定对应于所述第一样本用户的样本用户特征向量，并且，确定对应于所述目标对象的目标对象特征向量；其中，...

【技术保护点】
1.一种行为预测模型的训练方法，包括：/n确定针对目标对象的多个样本用户，其中任一的第一样本用户对应第一样本硬标签，该第一样本硬标签指示该第一样本用户是否对所述目标对象做出特定行为；/n基于预先确定的嵌入向量集，确定对应于所述第一样本用户的样本用户特征向量，并且，确定对应于所述目标对象的目标对象特征向量；其中，所述嵌入向量集是利用训练后的图神经网络对构建的二部图进行图嵌入处理而确定；所述二部图包括对应于多个用户的多个用户节点，对应于多个对象的多个对象节点，以及用户节点向对象节点做出所述特定行为而形成的连接边，所述嵌入向量集中包括所述多个用户的多个用户特征向量和所述多个对象的多个对象特征向量；/n将所述样本用户特征向量输入第一行为预测模型中，得到行为预测结果；/n基于所述行为预测结果和所述第一样本硬标签，确定第一损失项；/n基于所述样本用户特征向量和所述目标对象特征向量，确定所述第一样本用户对该目标对象做出该特定行为的特定行为概率，作为第一样本软标签；/n基于所述行为预测结果和所述第一样本软标签，确定第二损失项；/n利用所述第一损失项和第二损失项，训练所述第一行为预测模型。/n

【技术特征摘要】
1.一种行为预测模型的训练方法，包括：
确定针对目标对象的多个样本用户，其中任一的第一样本用户对应第一样本硬标签，该第一样本硬标签指示该第一样本用户是否对所述目标对象做出特定行为；
基于预先确定的嵌入向量集，确定对应于所述第一样本用户的样本用户特征向量，并且，确定对应于所述目标对象的目标对象特征向量；其中，所述嵌入向量集是利用训练后的图神经网络对构建的二部图进行图嵌入处理而确定；所述二部图包括对应于多个用户的多个用户节点，对应于多个对象的多个对象节点，以及用户节点向对象节点做出所述特定行为而形成的连接边，所述嵌入向量集中包括所述多个用户的多个用户特征向量和所述多个对象的多个对象特征向量；
将所述样本用户特征向量输入第一行为预测模型中，得到行为预测结果；
基于所述行为预测结果和所述第一样本硬标签，确定第一损失项；
基于所述样本用户特征向量和所述目标对象特征向量，确定所述第一样本用户对该目标对象做出该特定行为的特定行为概率，作为第一样本软标签；
基于所述行为预测结果和所述第一样本软标签，确定第二损失项；
利用所述第一损失项和第二损失项，训练所述第一行为预测模型。

2.根据权利要求1所述的方法，其中，所述目标对象属于以下中的任一种：内容信息、业务登录界面、商品、服务、用户；其中内容信息的形式包括以下中的至少一种：图片、文本、视频。

3.根据权利要求1所述的方法，其中，所述特定行为包括以下中的任一种：点击行为、浏览达到预设时长的行为、注册行为、登录行为、购买行为和关注行为。

4.根据权利要求1所述的方法，其中，所述图神经网络包括L个隐层，所述图嵌入处理包括：
针对所述二部图中任意的第一节点，在每个隐层，获取上一隐层输出的隐向量，所述隐向量包括对应于K个特征子空间的K个子隐向量，对所述K个子隐向量分别进行T次迭代更新得到本层输出的隐向量，将第L个隐层输出的隐向量作为所述第一节点对应的特征向量。

5.根据权利要求4所述的方法，其中，对所述K个子隐向量分别进行T次迭代更新包括，对所述K个子隐向量中任意的第j子隐向量进行T次迭代更新，其中任一次迭代更新包括：
获取所述第一节点的第j子映射向量，其是将所述第一节点的节点特征映射至第j个子特征空间而得到；
获取所述第一节点的N个邻居节点各自对应的K个子映射向量，该K个子映射向量是将对应的邻居节点的节点特征映射至所述K个特征子空间而得到；
针对所述N个邻居节点中任一的第二节点，分别计算该第二节点对应的K个子映射向量与所述第j子隐向量之间的K个相似度，并利用其和值对其中第j个相似度进行归一化处理，得到第一权重；
利用对应于N个邻居节点的N个第一权重，对该N个邻居节点所对应的N个第j子映射向量进行加权处理，得到加权向量；
将所述第j子隐向量更新为，所述第一节点的第j子映射向量和所述加权向量的和向量所对应的单位向量。

6.根据权利要求5所述的方法，其中，利用对应于N个邻居节点的N个第一权重，对该N个邻居节点所对应的N个第j子映射向量进行加权处理，得到加权向量，包括：
获取对N个注意力分数进行归一化处理而得到的N个第二权重，所述N个注意力分数对应所述N个邻居节点，其中各个注意力分数是基于其对应的邻居节点的节点特征和所述第一节点的节点特征而确定；
对所述N个第一权重和所述N个第二权重进行对应位置的权重相乘处理，得到N个第三权重；
利用所述N个第三权重，对所述N个第j子映射向量进行加权处理，得到所述加权向量。

7.根据权利要求1所述的方法，其中，所述图神经网络包括L个隐层，所述图嵌入处理包括：
针对所述二部图中任意的第一节点，在每个隐层，获取上一隐层输出的隐向量，对该隐向量进行T次迭代更新作为本层输出，将第L个隐层输出的隐向量作为所述第一节点对应的特征向量；其中，所述T次迭代更新中的任一次迭代更新包括：
获取所述第一节点及其N个邻居节点各自对应的映射向量，该映射向量是将其对应节点的节点特征映射至预设特征空间而得到；
计算所述N个邻居节点各自对应的映射向量与所述隐向量之间的相似度，得到N个相似度，并对该N个相似度进行归一化处理，得到N个第一权重；
获取对N个注意力分数进行归一化处理而得到的N个第二权重，所述N个注意力分数对应所述N个邻居节点，其中各个注意力分数是基于其对应的邻居节点的节点特征和所述第一节点的节点特征而确定；
对所述N个第一权重和所述N个第二权重进行对应位置的权重相乘处理，得到N个第三权重；
利用所述N个第三权重，对所述N个邻居节点对应的N个映射向量进行加权处理，得到所述加权向量；
将所述隐向量更新为，所述第一节点的映射向量与所述加权向量的和向量所对应的单位向量。

8.根据权利要求1所述的方法，其中，所述图神经网络通过以下步骤训练：
获取训练样本集，其中任一的第一训练样本中包括第一用户的用户标识、第一对象的对象标识和第一样本标签，该第一样本标签指示所述第一用户是否向所述第一对象做出所述特定行为；
通过所述图神经网络对所述二部图进行图嵌入处理，确定所述第一用户的第一用户特征向量和所述第一对象的第一对象特征向量；
基于所述第一用户特征向量和第一对象特征向量，确定所述第一用户对所述第一对象做出所述特定行为的第一行为概率，进而结合所述第一样本标签，确定行为预测损失；
利用所述行为预测损失，训练所述图神经网络。

9.根据权利要求8所述的方法，其中，基于所述第一用户特征向量和第一对象特征向量，确定所述第一用户对所述第一对象做出所述特定行为的第一行为概率，包括：
计算所述第一用户特征向量和第一对象特征向量的第一相似度，并对该第一相似度进行归一化处理，得到所述第一行为概率；
其中，基于所述样本用户特征向量和所述目标对象特征向量，确定所述第一样本用户对所述目标对象做出特定行为的特定行为概率，包括：
计算所述样本用户特征向量和目标对象特征向量的第二相似度，并对该第二相似度进行归一化处理，得到所述特定行为概率。

10.根据权利要求8所述的方法，其中，基于所述第一用户特征向量和第一对象特征向量，确定所述第一用户对所述第一对象做出所述特定行为的第一行为概率，包括：
对所述第一用户特征向量和第一对象特征向量进行融合，得到第一融合向量；
将所述第一融合向量输入所述分类网络中，得到所述第一行为概率；
其中，利用所述行为预测损失，训练所述图神经网络，包括：
利用所述行为预测损失，训练分类网络和所述图神经网络；
其中，基于所述样本用户特征向量和所述目标对象特征向量，确定所述第一样本用户对所述目标对象做出特定行为的特定行为概率，包括：
对所述样本用户特征向量和所述目标对象特征向量进行融合，得到第二融合向量；
将所述第二融合向量输入训练后的分类网络中，得到所述特定行为概率。

11.根据权利要求1所述的方法，其中，所述多个样本用户中包括多个种子用户，其中各个种子用户对应的样本硬标签均指示对所述目标对象做出所述特定行为。

12.根据权利要求11所述的方法，其中，所述目标对象不属于所述二部图中包含的所述多个对象；其中，确定对应于所述目标对象的目标对象特征向量包括：
确定所述多个种子用户对应的多个种子特征向量；
根据所述多个种子特征向量和所述多个对象特征向量，确定所述目标对象特征向量。

13.根据权利要求12所述的方法，其中，所述多个种子用户为M个，所述多个对象特征向量为N个；其中，确定所述目标对象特征向量，包括：
计算M个种子特征向量中各个向量与N个对象特征向量中各个向量之间的相似度，得到M*N个相似度；
确定所述M*N个相似度中在预定范围内的若干相似度，并将该若干相似度所对应的若干对象特征向量的平均向量，作为所述目标对象特征向量。

14.根据权利要求12所述的方法，其中，所述多个对象特征向量为N个；其中，确定所述目标对象特征向量，包括：
对所述多个种子特征向量进行聚类处理，得到Q个类簇；
针对所述Q个类簇中任一的第一类簇，对其中所包含的种子特征向量进行平均处理，得到第一平均向量，并计算该第一平均向量与N个对象特征向量中各个向量之间的相似度，得到N个第三相似度，并确定其中的最大相似度所对应的对象特征向量，作为第一相似对象特征向量；
基于对应于所述Q个类簇的Q个相似对象特征向量，确定所述目标对象特征向量。

15.根据权利要求14所述的方法，其中，基于对应于所述Q个类簇的Q个相似对象特征向量，确定所述目标对象特征向量，包括：
将该Q个相似对象特征向量的平均向量，确定为所述目标对象特征向量。

16.根据权利要求14所述的方法，其中，基于对应于所述Q个类簇的Q个相似对象特征向量，确定所述目标对象特征向量，包括：
将所述Q个对象特征向量共同作为所述目标对象特征向量；
其中，基于所述样本用户特征向量和目标对象特征向量，确定所述第一用户对所述目标对象做出特定行为的特定行为概率，包括：
计算所述样本用户特征向量和所述Q个对象特征向量中各个向量之间的第四相似度，并对该第四相似度进行归一化处理，得到Q个归一化概率；
计算所述Q个归一化概率的均值，作为所述特定行为概率。

17.根据权利要求11所述的方法，其中，在利用所述第一损失项和第二损失项，训练所述第一行为预测模型之前，所述方法还包括：
基于对应于所述多个种子用户的多个种子用户特征向量，采用无监督的离群点检测算法，确定其中任一的第一种子用户的离群分数，作为第一训练权重；
其中，利用所述第一损失项和第二损失项，训练所述第一行为预测模型，包括：
在所述第一样本用户为所述第一种子用户的情况下，利用所述第一训练权重对所述第一损失项和第二损失项的相加结果进行加权，得到加权损失；
利用所述加权损失，训练所述第一行为预测模型。

18.根据权利要求1所述的方法，其中，在利用所述第一损失项和第二损失项，训练所述第一行为预测模型之后，所述方法还包括：
获取多个候选用户的多个用户特征，并将该多个用户特征分别输入训练后的第一行为预测模型中，得到对应的多个行为预测结果；
基于所述多个行为预测结果，从所述多个候选用户中选出多个目标用户；
向所述多个目标用户推送所述目标对象。

19.根据权利要求18所述的方法，其中，在向所述多个目标用户推送所述目标对象之后，所述方法还包括：
获取针对所述多个目标用户采集的行为反馈数据；
基于所述行为反馈数据构建多个训练样本，其中各个训练样本中包括对应目标用户的用户特征和样本标签，该样本标签指示该对应目标用户是否对所述目标对象做出所述特定行为；
利用所述多个训练样本，训练第二行为预测模型。

20.一种行为预测模型的训练方法，包括：
针对目标对象，获取基于多个种子用户形成的多个正样本，其中任意的第一正样本包括，与第一种子用户对应的第一用户特征和正例标签，该正例标签指示出，对应用户是被确定为对所述目标对象做出特定行为的用户；
基于所述多个种子用户各自的用户特征，采用无监督的离群点检测算法，确定所述第一种子用户的离群分数，作为针对行为预测任务的第一训练权重；
利用针对所述行为预测任务的训练样本集，对第一行为预测模型进行第一训练，所述训练样本集包括所述多个正样本以及预先获取的多个负样本；所述第一训练具体包括：
将所述第一用户特征输入第一行为预测模型中，得到对应的行为预测结果；
基于所述行为预测结果和所述正例标签，确定行为预测损失，并利用所述第一训练权重对该行为预测损失进行加权处理，得到加权损失；
利用所述加权损失，训练所述第一行为预测模型。

21.根据权利要求20所述的方法，其中，基于所述多个种子用户各自的用户特征，采用无监督的离群点检测算法，确定所述第一种子用户的离群分数，包括：
利用所述多个种子用户各自的用户特征，构建孤立森林模型，所述孤立森林模型中包括多棵孤立树，其中每棵孤立树包括用于对种子用户进行划分的多个节点和节点之间的多条边；
将所述第一用户特征输入所述孤立森林模型，得到多条路径，其中各条路径为所述第一种子用户在对应的孤立树中从根节点到叶节点经过的边；
将所述各条路径中所包含边的数量输入与所述孤立森林模型对应的离群评估函数，得到所述第一种子用户的离群分数。

22.根据权利要求20所述的方法，其中，基于所述多个种子用户各自的用户特征，采用无监督的离群点检测算法，确定所述第一种子用户的离群分数，包括：
基于所述多个种子用户各自的用户特征,利用密度估计算法，确定所述多个种子用户对应的概率密度函数；
利用所述概率密度函数，确定所述第一种子用户对应的概率密度；
利用预设的减函数对所述概率密度进行运算，得到所述离群分数。

23.根据权利要求20所述的方法，其中，在训练执行所述行为预测任务的行为第一行为预测模型之后，所述方法还包括：
获取多个候选用户的多个用户特征，并将该多个用户特征分别输入训练后的第一行为预测模型中，得到对应的多个行为预测结果；
基于所述多个行为预测结果，从所述多个候选用户中选出多个目标用户；
向所述多个目标用户推送所述目标对象。

24.根据权利要求23所述的方法，其中，在向所述多个目标用户推送所述目标对象之后，所述方法还包括：
获取针对所述多个目标用户采集的行为反馈数据；
基于所述行为反馈数据构建多个训练样本，其中各个训练样本中包括对应目标用户的用户特征和样本标签，该样本标签指示该对应目标用户是否对所述目标对象做出所述特定行为；
利用所述多个训练样本，训练第二行为预测模型。

25.根据权利要求24所述的方法，其中，利用所述多个训练样本，训练第二行为预测模型，包括：
从所述多个正样本中确定多个选中正样本；
利用所述多个训练样本以及所述多个选中正样本，训练第二行为预测模型。

26.根据权利要求25所述的方法，其中，从所述多个正样本中确定多个选中正样本，包括：
利用所述多个训练样本，训练第三行为预测模型；
将所述多个正样本中包含的多个用户特征，分别输入训练后的第三行为预测模型中，得到多个预测概率；
确定所述多个预测概率中排在预定靠前范围内的预测概率，并将对应的正样本归为所述多个选中正样本。

27.根据权利要求25所述的方法，其中，利用所述多个训练样本以及所述多个选中正样本，训练第二行为预测模型，包括：
将所述多个选中正样本中第一选中正样本所包含的用户特征，输入所述第二行为预测模型中，得到第一预测结果，进而结合所述正例标签，确定第一预测损失；
采用元学习的方式，确定所述第一选中正样本对应的第一权重，并利用该第一权重对所述第一预测损失进行加权，得到第一加权损失；
利用所述第一加权损失，训练所述第二行为预测模型。

28.根据权利要求27所述的方法，其中，所述多个训练样本包括第一训练样本，其基于所述行为反馈数据中在预定时刻之后产生的部分而构建；
其中，采用元学习的方式，确定所述第一选中正样本对应的第一权重，包括：
将所述多个选中正样本中第二选中正样本所包含的用户特征，输入所述第二行为预测模型中，得到第二预测结果，进而结合所述正例标签，确定第二预测损失；
利用权重变量对所述第二预测结果进行加权，得到加权损失表达式；
基于所述加权损失表达式，对所述第二行为预测模型中的模型参数进行更新计算，得到所述模型参数的更新后参数表达式；
利用所述更新后参数表达式，确定所述第一训练样本对应的训练损失表达式；
利用所述训练损失表达式更新所述权重变量对应的数值，得到所述第一权重。

29.根据权利要求28所述的方法，其中，利用该第一权重对所述第一预测损失进行加权，得到第一加权损失，包括：
利用所述第一权重和0中的较大值对所述第一预测损失进行加权，得到所述第一加权损失。

30.根据权利要求27所述的方法，其中，所述多个训练样本包括第二训练样本，其基于所述行为反馈数据中在预定时刻之前产生的部分而构建；
其中，利用所述多个训练样本以及所述多个选中正样本，训练第二行为预测模型，还包括：
利用所述第二训练样本，训练所述第二行为预测模型。

31.一种行为预测模型的训练装置，包括：
样本用户确定单元，配置为确定针对目标对象的多个样本用户，其中任一的第一样本用户对应第一样本硬标签，该第一样本硬标签指示该...

【专利技术属性】
技术研发人员：庄晨熠，张志强，刘子奇，周俊，谭译泽，魏建平，刘致宁，吴郑伟，顾进杰，漆远，张冠男，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人