一种用户行为预测方法及装置制造方法及图纸

技术编号:17467949 阅读:28 留言:0更新日期:2018-03-15 05:19
本发明专利技术实施例提供一种用户行为预测方法及装置,涉及大数据机器学习技术领域,能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。具体方案为:预测装置获取第一样本集中每个特征分别对应的权重;第一样本集中的每个样本包括行为标签和第一特征向量,第一特征向量包括多个一阶特征和多个高阶特征,高阶特征由多个一阶特征组合而成;预测装置记录每个特征分别出现的频次;确定第一频次边界;修正第一样本集中每个特征分别对应的权重;其中,修正具体包括:减小频次小于第一频次边界的特征分别对应的权重;根据修正后的每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。本发明专利技术实施例用于预测用户行为。

【技术实现步骤摘要】
一种用户行为预测方法及装置
本专利技术实施例涉及大数据机器学习
,尤其涉及一种用户行为预测方法及装置。
技术介绍
目前,用户行为预测作为现有个性化推荐、广告精准投放等领域的重要技术,被广泛关注和使用。以用户行为预测中的点击率预测为例,在实际应用场景中,用户是否会点击一个内容,不仅与用户固有的偏好特征和内容的属性特征有关,还与当时可能会影响用户决策的上下文特征有关。现有技术通过在训练样本的特征向量中纳入上下文特征,并通过特征组合生成高阶特征,以反映不同特征对用户行为预测的共同作用。然而,现有技术中通过简单的特征组合的方法生成的阶数较高的特征,某些高阶特征容易在训练样本集中出现频次过低,即高阶特征具有稀疏性,从而容易在训练过程中发生局部过拟合,使得训练得到的某些高阶特征对应的权重不具备泛化能力,导致根据这些高阶特征对应的权重进行用户行为预测时出现偏差。
技术实现思路
本专利技术实施例提供一种用户行为预测方法及装置,能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种用户行为预测方法,该方法包括:预测装置首先获取第一样本集中每个特征分别对应的权重。其中,第一样本集包括多个样本,第一样本集中的每个样本包括行为标签和第一特征向量,第一特征向量包括多个一阶特征和多个高阶特征,高阶特征由第一特征向量中的多个一阶特征组合而成。其次,预测装置记录第一样本集中每个特征分别出现的频次。而后,预测装置确定第一频次边界。之后,预测装置修正第一样本集中每个特征分别对应的权重。其中,修正具体包括:预测装置减小频次小于第一频次边界的特征分别对应的权重。然后,预测装置根据修正后的第一样本集中每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。从而,通过减小频次小于第一频次边界的特征对应的权重,预测装置可以抑制频次过低的高阶特征对应的权重,降低高阶特征稀疏性在用户行为预测过程中引起的偏差。在一种可能的实现方式中,预测装置确定第一频次边界包括:预测装置根据第一样本集中最高阶特征出现的频次的平均值,确定第一频次边界。其中,由于第一频次边界用于区分正常频次的特征和频次过低的特征,因而第一频次边界的取值可以参考第一样本集中最高阶特征出现的频次的平均值。在一种可能的实现方式中,第一频次边界小于第一样本集中最高阶特征出现的频次的平均值,以尽量确保频次小于第一频次边界的特征为频次过低的问题特征。在一种可能的实现方式中,该方法还包括:预测装置确定第二频次边界,第二频次边界大于第一频次边界。该修正还包括:预测装置减小频次大于第二频次边界的特征分别对应的权重。从而,通过减小频次大于第二频次边界的特征分别对应的权重,预测装置还可以抑制频次过高的特征对应的权重,降低高频曝光问题在用户行为预测过程中引起的偏差。在一种可能的实现方式中,预测装置确定第二频次边界包括:预测装置根据第一样本集中一阶特征出现的频次的平均值,确定第二频次边界。由于第二频次边界用于区分正常频次的特征和频次过高的特征,因而第二频次边界的取值可以参考第一样本集中一阶特征出现的频次的平均值。在一种可能的实现方式中,第二频次边界大于第一样本集中一阶特征出现的频次的平均值,以尽量确保频次大于第二频次边界的特征为频次过高的问题特征。在一种可能的实现方式中,修正具体包括:将第一样本集中每个特征分别对应的权重乘以抑制因子k,抑制因子k表示为:其中,a表示第一频次边界,b表示第二频次边界,Pi表示特征出现的频次。该种可能的实现方式可以快速抑制频次过高和过低的特征对应的权重。在一种可能的实现方式中,在[a,b]区间内,抑制因子k的取值为常数a。其中,a表示第一频次边界,b表示第二频次边界。在一种可能的实现方式中,修正具体包括:预测装置将第一样本集中每个特征分别对应的权重乘以抑制因子k,抑制因子k表示为:其中,a表示第一频次边界,b表示第二频次边界,Pi表示特征出现的频次,δ表示大于或者等于1的常数,λ表示大于0的常数。该种可能的实现方式在第一频次边界和第二频次边界附近有一个权重抑制的缓冲区,频次过高和过低的特征不会快速趋近于0。在一种可能的实现方式中,在该方法之前还包括:预测装置首先获取样本数据,样本数据包括用户行为、用户特征、内容特征以及上下文特征。而后,预测装置将样本数据进行关联生成第二样本集,第二样本集中的每个样本包括行为标签和第二特征向量,第二特征向量包括多个一阶特征。之后,预测装置根据第二样本集生成第一样本集,第一样本集中的样本与第二样本集中的样本一一对应。其中,对于第二样本集中的任意样本,将第二特征向量中的多个一阶特征进行组合生成高阶特征,将高阶特征添加至第二特征向量中形成第一特征向量,第一特征向量与行为标签形成第一样本集中的一个样本。然后,预测装置根据预设训练算法,计算第一样本集中每个特征分别对应的权重。在一种可能的实现方式中,训练算法为回归分析算法或与其有亲缘关系的算法。在一种可能的实现方式中,在预测装置预测目标第一特征向量与行为标签的取值的概率对应关系之前,该方法还包括:预测装置首先获取目标用户特征、目标内容特征以及目标上下文特征。然后,预测装置根据目标用户特征、目标内容特征以及目标上下文特征,生成目标第二特征向量,目标第二特征向量包括多个一阶特征。而后,预测装置将目标第二特征向量中的多个一阶特征进行组合生成高阶特征,并将高阶特征添加至目标第二特征向量中,以生成目标第一特征向量。从而,在生成目标第一特征向量后,可以根据修正后的第一样本集中每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。第二方面,本专利技术实施例提供了一种预测装置,该预测装置包括:获取单元,用于获取第一样本集中每个特征分别对应的权重;第一样本集包括多个样本,第一样本集中的每个样本包括行为标签和第一特征向量,第一特征向量包括多个一阶特征和多个高阶特征,高阶特征由第一特征向量中的多个一阶特征组合而成。记录单元,用于记录第一样本集中每个特征分别出现的频次。确定单元,用于确定第一频次边界。修正单元,用于修正第一样本集中每个特征分别对应的权重。其中,修正单元具体用于:减小频次小于第一频次边界的特征分别对应的权重。预测单元,用于根据修正后的第一样本集中每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。这样,通过减小频次小于第一频次边界的特征对应的权重,预测装置可以抑制频次过低的高阶特征对应的权重,降低高阶特征稀疏性在用户行为预测过程中引起的偏差。在一种可能的设计中,确定单元具体用于:根据第一样本集中最高阶特征出现的频次的平均值,确定第一频次边界。其中,由于第一频次边界用于区分正常频次的特征和频次过低的特征,因而第一频次边界的取值可以参考第一样本集中最高阶特征出现的频次的平均值。在一种可能的设计中,确定单元还用于:确定第二频次边界,第二频次边界大于第一频次边界。修正单元还用于:减小频次大于第二频次边界的特征分别对应的权重。这样,通过减小频次大于第二频次边界的特征分别对应的权重,预测装置还可以抑制频次过高的特征对应的权重,降低高频曝光问题在用户行为预测过程中引起的偏差。在一种可能的设本文档来自技高网...
一种用户行为预测方法及装置

【技术保护点】
一种用户行为预测方法,其特征在于,包括:获取第一样本集中每个特征分别对应的权重;所述第一样本集包括多个样本,所述第一样本集中的每个样本包括行为标签和第一特征向量,所述第一特征向量包括多个一阶特征和多个高阶特征,所述高阶特征由所述第一特征向量中的多个一阶特征组合而成;记录所述第一样本集中每个特征分别出现的频次;确定第一频次边界;修正所述第一样本集中每个特征分别对应的权重;其中,所述修正具体包括:减小频次小于第一频次边界的特征分别对应的权重;根据修正后的所述第一样本集中每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。

【技术特征摘要】
1.一种用户行为预测方法,其特征在于,包括:获取第一样本集中每个特征分别对应的权重;所述第一样本集包括多个样本,所述第一样本集中的每个样本包括行为标签和第一特征向量,所述第一特征向量包括多个一阶特征和多个高阶特征,所述高阶特征由所述第一特征向量中的多个一阶特征组合而成;记录所述第一样本集中每个特征分别出现的频次;确定第一频次边界;修正所述第一样本集中每个特征分别对应的权重;其中,所述修正具体包括:减小频次小于第一频次边界的特征分别对应的权重;根据修正后的所述第一样本集中每个特征分别对应的权重,预测目标第一特征向量与行为标签的取值的概率对应关系。2.根据权利要求1所述的方法,其特征在于,所述确定第一频次边界包括:根据所述第一样本集中最高阶特征出现的频次的平均值,确定所述第一频次边界。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:确定第二频次边界,所述第二频次边界大于所述第一频次边界;所述修正还包括:减小频次大于第二频次边界的特征分别对应的权重。4.根据权利要求3所述的方法,其特征在于,所述确定第二频次边界包括:根据所述第一样本集中一阶特征出现的频次的平均值,确定所述第二频次边界。5.根据权利要求3或4所述的方法,其特征在于,所述修正具体包括:将所述第一样本集中每个特征分别对应的权重乘以抑制因子k,所述抑制因子k表示为:其中,a表示所述第一频次边界,b表示所述第二频次边界,Pi表示特征出现的频次。6.根据权利要求3或4所述的方法,其特征在于,所述修正具体包括:将所述第一样本集中每个特征分别对应的权重乘以抑制因子k,所述抑制因子k表示为:其中,a表示所述第一频次边界,b表示所述第二频次边界,Pi表示特征出现的频次,δ表示大于或者等于1的常数,λ表示大于0的常数。7.根据权利要求1-6任一项所述的方法,其特征在于,在所述方法之前还包括:获取样本数据,所述样本数据包括用户行为、用户特征、内容特征以及上下文特征;将所述样本数据进行关联生成第二样本集,所述第二样本集中的每个样本包括行为标签和第二特征向量,所述第二特征向量包括多个一阶特征;根据所述第二样本集生成第一样本集,所述第一样本集中的样本与所述第二样本集中的样本一一对应;其中,对于所述第二样本集中的任意样本,将所述第二特征向量中的多个一阶特征进行组合生成高阶特征,将所述高阶特征添加至所述第二特征向量中形成所述第一特征向量,所述第一特征向量与所述行为标签形成所述第一样本集中的一个样本;根据预设训练算法,计算所述第一样本集中每个特征分别对应的权重。8.根据权利要求1-7任一项所述的方法,其特征在于,在所述预测目标第一特征向量与行为标签的取值的概率对应关系之前,所述方法还包括:获取目标用户特征、目标内容特征以及目标上下文特征;根据目标用户特征、目标内容特征以及目标上下文特征,生成目标第二特征向量,所述目标第二特征向量包括多个一阶特征;将所述目标第二特征向量中的多个一阶特征进行组合生成高阶特征,并将所述高阶特征添加至所述目标第二特征向量中,以生成所述目标第一特征向量。9.一种预测装置,其特征在于,包括:获取单元,用于获取第一样本集中每个特征分别对应的权重;所述第一样本集包括多个样本,所述第一样本集中的每个样本包括行为标签和第一特征向量,所述第一特征向量包括多个一阶特征和多个高阶特征,所述高阶特征由所述第一特征向量...

【专利技术属性】
技术研发人员:李长路
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1