应用于商品推荐系统的特征处理方法及装置制造方法及图纸

技术编号:35690282 阅读:13 留言:0更新日期:2022-11-23 14:38
本发明专利技术提供一种应用于商品推荐系统的特征处理方法及装置,该方法包括:构建特征决策树,分别确定根节点、各子节点以及各叶节点的显著系数;选取显著系数大于第一阈值的叶节点,构建筛选出的叶节点到根节点的路径,筛选出所有路径中显著系数均值大于第二阈值的路径,获取每条路径的所有节点以构成每条路径的第二路径节点集合,并从中筛选显著系数大于第三阈值的目标节点;将每条路径筛选出的目标节点对应的用户行为特征组合形成新的合成特征;其中所述新的合成特征用于训练所述商品推荐系统。通过设置三个阈值,引入对于叶节点、叶节点至根节点的路径、路径上特征节点的筛选,有效大幅度降低在特征维数非常庞大时的计算处理和存储的开销。理和存储的开销。理和存储的开销。

【技术实现步骤摘要】
应用于商品推荐系统的特征处理方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种应用于商品推荐系统的特征处理方法及装置。

技术介绍

[0002]随着人工智能技术的发展,在电子商务
,推荐系统能够帮助电子商务平台向客户推送其感兴趣的商品或推荐,从而为用户提供更好的购物体验,增强用户黏性。商品推荐系统通常为一种推荐模型,该推荐模型一般分为模型的训练和模型的预测两个阶段。在针对推荐系统进行模型训练的过程中,需要将样本数据中的特征数据进行各种各样的处理,处理后的特征数据与标签数据通过模型算法进行参数计算、设置和调整,最终得到用于预测的推荐模型。对这些特征进行处理的过程被称为特征工程。当前特征工程的技术手段通常会将多个特征进行选择并组合形成为新的特征数据使用。
[0003]目前,现有技术中对于多个特征数据的选择和组合方法有:方法一,源于向量积将一个特征与其自身或其他特征相乘来构成新的特征。方法二,当某个特征数据是连续型数值,且值表示范围过大时,通过采用分桶的方式将数值离散化或降维处理后形成新的特征。该方法对于连续型数值通过采用分桶的离散化的方式,将其表示成新的合成特征向量,合成特征向量会通过采用独热编码(One

Hot)的形式表示,以便于向量内积乘法处理。
[0004]然而,专利技术人发现现有至少存在如下技术问题:在特征维数非常庞大时,使得服务器的计算处理和存储的开销大,影响处理速度。

技术实现思路

[0005]本专利技术提供一种应用于商品推荐系统的特征处理方法及装置,通过设置特定的阈值对节点和路径进行筛选,将筛选出的节点对应的特征组合产生的新的合成特征,能够有效大幅度降低在特征维数非常庞大时的计算处理和存储的开销,加快处理速度。
[0006]第一方面,本专利技术提供一种应用于商品推荐系统的特征处理方法,包括:
[0007]获取商品推荐系统的样本数据集,根据所述商品推荐系统的样本数据集中的用户行为特征数据以及对应的用户行为结果标签数据,构建特征决策树;
[0008]分别确定所述特征决策树中的根节点、各子节点以及各叶节点的显著系数;
[0009]选取显著系数大于第一阈值的叶节点构成叶节点集合;通过遍历所述叶节点集合中的各叶节点,构建各叶节点到根节点的路径,得到初始路径集合;
[0010]通过遍历所述初始路径集合中的所有路径,得到每条路径的第一路径节点集合,从所述初始路径集合中筛选第一路径节点集合的显著系数均值大于第二阈值的路径,构成目标路径集合;
[0011]通过遍历所述目标路径集合中的所有路径,得到每条路径的第二路径节点集合,从每条路径的第二路径节点集合中筛选显著系数大于第三阈值的目标节点;将每条路径筛选出的目标节点对应的用户行为特征组合形成新的合成特征;其中所述新的合成特征用于
训练所述商品推荐系统。
[0012]在一种可能的设计中,所述分别确定所述特征决策树中的根节点、各子节点以及各叶节点的显著系数,包括:
[0013]针对各子节点以及各叶节点中的任一节点,将所述任一节点的正负样本比例与所述任一节点的父节点的正负样本比例的比值,确定为所述任一节点的显著系数;
[0014]将所述根节点的显著系数取值为预设数值。
[0015]在一种可能的设计中,所述根据所述用户行为特征数据以及对应的用户行为结果标签数据,构建特征决策树,包括:
[0016]采用迭代二分法(Iterative Dichotomiser 3,ID3)算法或分类与回归树(Classification And Regression Trees,CART)算法,基于所述用户行为特征数据以及对应的用户行为结果标签数据,构建初始特征决策树,
[0017]采用预剪枝、后剪枝策略对所述初始特征决策树进行剪枝处理,得到所述特征决策树。
[0018]在一种可能的设计中,所述从所述初始路径集合中筛选第一路径节点集合的显著系数均值大于第二阈值的路径,包括:确定第一路径节点集合的显著系数均值:获取所述每条路径的第一路径节点集合中根节点、各子节点以及各叶节点的各节点的显著系数,并对所述各节点的显著系数求和;将所述各节点的显著系数求和结果,与第一路径节点集合中根节点、各子节点以及各叶节点的节点个数的比值,确定所述显著系数均值。
[0019]在一种可能的设计中,所述将每条路径筛选出的目标节点对应的用户行为特征组合形成合成特征之后,还包括:
[0020]基于评估函数,从所有路径选出的目标节点对应的用户行为特征中筛选出最优的合成特征;
[0021]根据所述最优的合成特征训练所述商品推荐系统。
[0022]第二方面,本专利技术提供一种应用于商品推荐系统的特征处理装置,包括:
[0023]第一构建模块,用于获取商品推荐系统的样本数据集,根据所述商品推荐系统的样本数据集中的用户行为特征数据以及对应的用户行为结果标签数据,构建特征决策树;
[0024]确定模块,用于分别确定所述特征决策树中的根节点、各子节点以及各叶节点的显著系数;
[0025]第二构建模块,用于选取显著系数大于第一阈值的叶节点构成叶节点集合;通过遍历所述叶节点集合中的各叶节点,构建各叶节点到根节点的路径,得到初始路径集合;
[0026]第一筛选模块,用于通过遍历所述初始路径集合中的所有路径,得到每条路径的第一路径节点集合,从所述初始路径集合中筛选第一路径节点集合的显著系数均值大于第二阈值的路径,构成目标路径集合;
[0027]第二筛选模块,用于通过遍历所述目标路径集合中的所有路径,得到每条路径的第二路径节点集合,从每条路径的第二路径节点集合中筛选显著系数大于第三阈值的目标节点;
[0028]组合模块,用于将每条路径筛选出的目标节点对应的用户行为特征组合形成新的合成特征;其中所述新的合成特征用于训练所述商品推荐系统。
[0029]在一种可能的设计中,所述确定模块具体用于针对各子节点以及各叶节点中的任
一节点,将所述任一节点的正负样本比例与所述任一节点的父节点的正负样本比例的比值,确定为所述任一节点的显著系数;将所述根节点的显著系数取值为预设数值。
[0030]在一种可能的设计中,所述第一构建模块具体用于采用ID3算法或CART算法,基于所述用户行为特征数据以及对应的用户行为结果标签数据,构建初始特征决策树,采用预剪枝、后剪枝策略对所述初始特征决策树进行剪枝处理,得到所述特征决策树。
[0031]第三方面,本专利技术提供一种服务器,包括:至少一个处理器和存储器;
[0032]所述存储器存储计算机执行指令;
[0033]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的应用于商品推荐系统的特征处理方法。
[0034]第四方面,本专利技术提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于商品推荐系统的特征处理方法,其特征在于,应用于服务器,包括:获取商品推荐系统的样本数据集,根据所述商品推荐系统的样本数据集中的用户行为特征数据以及对应的用户行为结果标签数据,构建特征决策树;分别确定所述特征决策树中的根节点、各子节点以及各叶节点的显著系数;选取显著系数大于第一阈值的叶节点,构建所述叶节点到根节点的路径,得到初始路径集合;通过遍历所述初始路径集合中的所有路径,得到每条路径的第一路径节点集合,从所述初始路径集合中筛选第一路径节点集合的显著系数均值大于第二阈值的路径,构成目标路径集合;通过遍历所述目标路径集合中的所有路径,得到每条路径的第二路径节点集合,从每条路径的第二路径节点集合中筛选显著系数大于第三阈值的目标节点;将每条路径筛选出的目标节点对应的用户行为特征组合形成新的合成特征;其中所述新的合成特征用于训练所述商品推荐系统。2.根据权利要求1所述的方法,其特征在于,所述根据所述用户行为特征数据以及对应的用户行为结果标签数据,构建特征决策树,包括:采用迭代二分法算法ID3或分类与回归树算法CART,基于所述用户行为特征数据以及对应的用户行为结果标签数据,构建初始特征决策树;采用预剪枝、后剪枝策略对所述初始特征决策树进行剪枝处理,得到所述特征决策树。3.根据权利要求1所述的方法,其特征在于,所述分别确定所述特征决策树中的根节点、各子节点以及各叶节点的显著系数,包括:针对各子节点以及各叶节点中的任一节点,将所述任一节点的正负样本比例与所述任一节点的父节点的正负样本比例的比值,确定为所述任一节点的显著系数;将所述根节点的显著系数取值为预设数值。4.根据权利要求1至3任一项所述的方法,其特征在于,所述从所述初始路径集合中筛选第一路径节点集合的显著系数均值大于第二阈值的路径,包括:确定第一路径节点集合的显著系数均值:获取所述每条路径的第一路径节点集合中根节点、各子节点以及各叶节点的各节点的显著系数,并对所述各节点的显著系数求和;将所述各节点的显著系数求和结果,与第一路径节点集合中根节点、各子节点以及各叶节点的节点个数的比值,确定所述显著系数均值。5.根据权利要求1至3任一项所述的方法,其特征在于,所述将每条路径筛选出的目标节点对应的用户行为特征组合形成合成特征之后,还包括:基于评估函数,...

【专利技术属性】
技术研发人员:倪明鉴刘洁王雁飞李晓明黄迪赵慧婷潘登
申请(专利权)人:联通数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1