一种用户行为预测方法及装置制造方法及图纸

技术编号：17467949 阅读：28 留言：0更新日期：2018-03-15 05:19

本发明专利技术实施例提供一种用户行为预测方法及装置，涉及大数据机器学习技术领域，能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。具体方案为：预测装置获取第一样本集中每个特征分别对应的权重；第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由多个一阶特征组合而成；预测装置记录每个特征分别出现的频次；确定第一频次边界；修正第一样本集中每个特征分别对应的权重；其中，修正具体包括：减小频次小于第一频次边界的特征分别对应的权重；根据修正后的每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。本发明专利技术实施例用于预测用户行为。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户行为预测方法及装置
本专利技术实施例涉及大数据机器学习
，尤其涉及一种用户行为预测方法及装置。
技术介绍
目前，用户行为预测作为现有个性化推荐、广告精准投放等领域的重要技术，被广泛关注和使用。以用户行为预测中的点击率预测为例，在实际应用场景中，用户是否会点击一个内容，不仅与用户固有的偏好特征和内容的属性特征有关，还与当时可能会影响用户决策的上下文特征有关。现有技术通过在训练样本的特征向量中纳入上下文特征，并通过特征组合生成高阶特征，以反映不同特征对用户行为预测的共同作用。然而，现有技术中通过简单的特征组合的方法生成的阶数较高的特征，某些高阶特征容易在训练样本集中出现频次过低，即高阶特征具有稀疏性，从而容易在训练过程中发生局部过拟合，使得训练得到的某些高阶特征对应的权重不具备泛化能力，导致根据这些高阶特征对应的权重进行用户行为预测时出现偏差。
技术实现思路
本专利技术实施例提供一种用户行为预测方法及装置，能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。为达到上述目的，本专利技术的实施例采用如下技术方案：第一方面，本专利技术实施例提供了一种用户行为预测方法，该方法包括：预测装置首先获取第一样本集中每个特征分别对应的权重。其中，第一样本集包括多个样本，第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由第一特征向量中的多个一阶特征组合而成。其次，预测装置记录第一样本集中每个特征分别出现的频次。而后，预测装置确定第一频次边界。之后，预测装置修正第一样本集中每个特征分别对应的权重。其中，修正具体包括...
一种用户行为预测方法及装置

【技术保护点】
一种用户行为预测方法，其特征在于，包括：获取第一样本集中每个特征分别对应的权重；所述第一样本集包括多个样本，所述第一样本集中的每个样本包括行为标签和第一特征向量，所述第一特征向量包括多个一阶特征和多个高阶特征，所述高阶特征由所述第一特征向量中的多个一阶特征组合而成；记录所述第一样本集中每个特征分别出现的频次；确定第一频次边界；修正所述第一样本集中每个特征分别对应的权重；其中，所述修正具体包括：减小频次小于第一频次边界的特征分别对应的权重；根据修正后的所述第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

【技术特征摘要】
1.一种用户行为预测方法，其特征在于，包括：获取第一样本集中每个特征分别对应的权重；所述第一样本集包括多个样本，所述第一样本集中的每个样本包括行为标签和第一特征向量，所述第一特征向量包括多个一阶特征和多个高阶特征，所述高阶特征由所述第一特征向量中的多个一阶特征组合而成；记录所述第一样本集中每个特征分别出现的频次；确定第一频次边界；修正所述第一样本集中每个特征分别对应的权重；其中，所述修正具体包括：减小频次小于第一频次边界的特征分别对应的权重；根据修正后的所述第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。2.根据权利要求1所述的方法，其特征在于，所述确定第一频次边界包括：根据所述第一样本集中最高阶特征出现的频次的平均值，确定所述第一频次边界。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：确定第二频次边界，所述第二频次边界大于所述第一频次边界；所述修正还包括：减小频次大于第二频次边界的特征分别对应的权重。4.根据权利要求3所述的方法，其特征在于，所述确定第二频次边界包括：根据所述第一样本集中一阶特征出现的频次的平均值，确定所述第二频次边界。5.根据权利要求3或4所述的方法，其特征在于，所述修正具体包括：将所述第一样本集中每个特征分别对应的权重乘以抑制因子k，所述抑制因子k表示为：其中，a表示所述第一频次边界，b表示所述第二频次边界，Pi表示特征出现的频次。6.根据权利要求3或4所述的方法，其特征在于，所述修正具体包括：将所述第一样本集中每个特征分别对应的权重乘以抑制因子k，所述抑制因子k表示为：其中，a表示所述第一频次边界，b表示所述第二频次边界，Pi表示特征出现的频次，δ表示大于或者等于1的常数，λ表示大于0的常数。7.根据权利要求1-6任一项所述的方法，其特征在于，在所述方法之前还包括：获取样本数据，所述样本数据包括用户行为、用户特征、内容特征以及上下文特征；将所述样本数据进行关联生成第二样本集，所述第二样本集中的每个样本包括行为标签和第二特征向量，所述第二特征向量包括多个一阶特征；根据所述第二样本集生成第一样本集，所述第一样本集中的样本与所述第二样本集中的样本一一对应；其中，对于所述第二样本集中的任意样本，将所述第二特征向量中的多个一阶特征进行组合生成高阶特征，将所述高阶特征添加至所述第二特征向量中形成所述第一特征向量，所述第一特征向量与所述行为标签形成所述第一样本集中的一个样本；根据预设训练算法，计算所述第一样本集中每个特征分别对应的权重。8.根据权利要求1-7任一项所述的方法，其特征在于，在所述预测目标第一特征向量与行为标签的取值的概率对应关系之前，所述方法还包括：获取目标用户特征、目标内容特征以及目标上下文特征；根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，所述目标第二特征向量包括多个一阶特征；将所述目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将所述高阶特征添加至所述目标第二特征向量中，以生成所述目标第一特征向量。9.一种预测装置，其特征在于，包括：获取单元，用于获取第一样本集中每个特征分别对应的权重；所述第一样本集包括多个样本，所述第一样本集中的每个样本包括行为标签和第一特征向量，所述第一特征向量包括多个一阶特征和多个高阶特征，所述高阶特征由所述第一特征向量...

【专利技术属性】
技术研发人员：李长路，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人