基于随机森林的产品推荐方法、装置及介质制造方法及图纸

技术编号:22101930 阅读:18 留言:0更新日期:2019-09-14 03:20
本发明专利技术涉及智能决策,提供一种基于随机森林的产品推荐方法,包括:获取多个用户用户特征对应的特征变量;将特征变量划分为连续变量和离散变量;检查离散变量的离散值数量,将超过设定离散值数量的离散变量作为第一类离散变量,不超过设定离散值数量的离散变量作为第二类离散变量;对第一类离散变量进行衍生处理,建立衍生特征;对第一类离散变量采用K‑Modes对离散变量进行聚类,输出类别标签;构建随机森林模型,将第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入随机森林模型,实现人群分类;对不同人群分类类别的用户推荐不同产品。本发明专利技术还提供一种电子装置及存储介质。本发明专利技术适用于离散值较多的离散变量。

Product Recommendation Method, Device and Medium Based on Random Forest

【技术实现步骤摘要】
基于随机森林的产品推荐方法、装置及介质
本专利技术涉及智能决策
,更为具体地,涉及一种基于随机森林的产品推荐方法、装置及介质。
技术介绍
在现有人群分类模型中,离散变量会被转化为数值标签或者被衍生为多个变量,而这一处理方法对于离散值较多的变量则不适用,不能对人群进行准确分类,存在分类混淆甚至分类错误的情况,从而不能够推荐符合用户偏好的产品。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种适用于离散值较多的离散变量,提高人群分类的准确性,推荐符合用户偏好产品的基于随机森林的产品推荐方法、电子装置及存储介质。为了实现上述目的,本专利技术提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器中包括基于随机森林的产品推荐程序,所述基于随机森林的产品推荐程序被所述处理器执行时实现如下步骤:获取多个用户的用户特征对应的特征变量,所述用户特征包括年龄、职业、城市、性别、籍贯、学历、购买产品的数额,购买产品的次数和购买产品的类别中的一个或多个;将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;检查所述离散变量的离散值数量,将超过设定离散值数量的离散变量作为第一类离散变量,不超过设定离散值数量的离散变量作为第二类离散变量;对第一类离散变量进行衍生处理,建立衍生特征;对第一类离散变量采用K-Modes对离散变量进行聚类,输出类别标签;构建随机森林模型,将第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型,实现人群分类;对不同人群分类类别的用户推荐不同产品。此外,为了实现上述目的,本专利技术还提供一种基于随机森林的产品推荐方法,包括:获取多个用户的用户特征对应的特征变量,所述用户特征包括年龄、职业、城市、性别、籍贯、学历、购买产品的数额,购买产品的次数和购买产品的类别中的一个或多个;将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;检查所述离散变量的离散值数量,将超过设定离散值数量的离散变量作为第一类离散变量,不超过设定离散值数量的离散变量作为第二类离散变量;对第一类离散变量进行衍生处理,建立衍生特征;对第一类离散变量采用K-Modes对离散变量进行聚类,输出类别标签;构建随机森林模型,将第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型,实现人群分类;对不同人群分类类别的用户推荐不同产品。优选地,在第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型步骤之前还包括对第二类离散变量进行处理的步骤,包括:对离散特征为无序离散值的第二类离散变量进行编码;对离散特征为有序离散值的第二类离散变量进行量化处理。优选地,所述对第一类离散变量采用K-Modes对离散变量进行聚类的步骤和构建随机森林模型的步骤还包括:设定不同的聚类数量;采用已经确定分群类别的用户的第一类离散变量分别进行不同聚类数量的K-Modes聚类,针对每一K-Modes模型,建立相应随机森林模型,获得不同聚类数量对应的随机森林模型;通过人群分类预测精度选取最佳聚类数量及其对应的K-Modes模型和随机森林模型。进一步,优选地,所述通过人群分类预测精度选取最佳聚类数量的步骤包括:获得随机森林人群分类预测精度随聚类数量的变化趋势,对聚类数量进行调整,获得最佳聚类数量。此外,优选地,通过人群分类预测精度选取最佳聚类数量及其对应的K-Modes模型和随机森林模型之后还包括:通过网格搜索对选取的随机森林模型进行调参。优选地,所述对第一类离散变量采用K-Modes对离散变量进行聚类的步骤包括:步骤一:随机确定k个聚类中心L1,L2…LK,Li是长度为M的向量,步骤二:对于样本xj(j=1,2,...,N),分别比较其与k个中心之间的距离所述距离为不同属性值的个数;步骤三:将xj划分到距离最小的聚类中心,在全部的样本都被划分完毕之后,采用众数重新确定聚类中心;步骤四:重复步骤二和三,直到总距离不再降低,获得最后的聚类结果。优选地,所述K-Modes模型和随机森林模型的训练步骤包括:构建样本库,用于存储样本,所述样本为已经确定人群分类类别的用户的用户特征;所述样本库中的一部分样本作为训练集,一部分样本作为验证集;采用训练集对随机森林模型进行训练;将验证集代入训练集训练后的随机森林模型,得到验证集各样本的分群,通过人群分类预测精度选取最佳聚类数量及其对应的K-Modes模型和随机森林模型。此外,为了实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于随机森林的产品推荐程序,所述基于随机森林的产品推荐程序被处理器执行时,实现上述的基于随机森林的产品推荐方法的步骤。本专利技术所述基于随机森林的产品推荐方法、电子装置及存储介质通过K-Modes模型将离散值较多的离散变量进行聚类处理,并输出类别标签。另一方面,对于部分变量进行衍生处理,建立衍生特征。处理完毕后,应用类别标签与衍生特征,结合其他离散特征与连续特征,构建随机森林模型,从而实现人群分类。因此,本专利技术适用于离散值较多的离散变量,降低了入模因子的维度并充分保留了特征信息,提升了分类模型的精度,能够对人群进行准确分类,推荐符合各类用户偏好的产品。附图说明图1是本专利技术基于随机森林的产品推荐方法较佳实施例的应用环境示意图;图2是图1中基于随机森林的产品推荐程序较佳实施例的模块示意图;图3是本专利技术基于随机森林的产品推荐方法较佳实施例的流程图。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下将结合附图对本专利技术的具体实施例进行详细描述。本专利技术提供一种基于随机森林的产品推荐方法,应用于一种电子装置1。参照图1所示,为本专利技术基于随机森林的产品推荐方法较佳实施例的应用环境示意图。在本实施例中,电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器,例如所述电子装置1上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于随机森林的产品推荐程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。处理器12在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于随机森林的产品推荐程序10等。网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1本文档来自技高网...

【技术保护点】
1.一种基于随机森林的产品推荐方法,其特征在于,包括:获取多个用户的用户特征对应的特征变量,所述用户特征包括年龄、职业、城市、性别、籍贯、学历、购买产品的数额,购买产品的次数和购买产品的类别中的一个或多个;将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;检查所述离散变量的离散值数量,将超过设定离散值数量的离散变量作为第一类离散变量,不超过设定离散值数量的离散变量作为第二类离散变量;对第一类离散变量进行衍生处理,建立衍生特征;对第一类离散变量采用K‑Modes进行聚类,输出类别标签;构建随机森林模型,将第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型,实现人群分类;对不同人群分类类别的用户推荐不同产品。

【技术特征摘要】
1.一种基于随机森林的产品推荐方法,其特征在于,包括:获取多个用户的用户特征对应的特征变量,所述用户特征包括年龄、职业、城市、性别、籍贯、学历、购买产品的数额,购买产品的次数和购买产品的类别中的一个或多个;将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;检查所述离散变量的离散值数量,将超过设定离散值数量的离散变量作为第一类离散变量,不超过设定离散值数量的离散变量作为第二类离散变量;对第一类离散变量进行衍生处理,建立衍生特征;对第一类离散变量采用K-Modes进行聚类,输出类别标签;构建随机森林模型,将第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型,实现人群分类;对不同人群分类类别的用户推荐不同产品。2.根据权利要求1所述的基于随机森林的产品推荐方法,其特征在于,在第一类离散变量的类别标签和衍生特征、第二类离散变量和连续变量输入所述随机森林模型步骤之前还包括对第二类离散变量进行处理的步骤,包括:对离散特征为无序离散值的第二类离散变量进行编码;对离散特征为有序离散值的第二类离散变量进行量化处理。3.根据权利要求1所述的基于随机森林的产品推荐方法,其特征在于,所述对第一类离散变量采用K-Modes对离散变量进行聚类的步骤和构建随机森林模型的步骤还包括:设定不同的聚类数量;采用已经确定分群类别的用户的第一类离散变量分别进行不同聚类数量的K-Modes聚类,针对每一K-Modes模型,建立相应随机森林模型,获得不同聚类数量对应的随机森林模型;通过人群分类预测精度选取最佳聚类数量及其对应的K-Modes模型和随机森林模型。4.根据权利要求3所述的基于随机森林的产品推荐方法,其特征在于,所述通过人群分类预测精度选取最佳聚类数量的步骤包括:获得随机森林人群分类预测精度随聚类数量的变化趋势,对聚类数量进行调整,获得最佳聚类数量。5.根据权利要求3所述的基于随机森林的产品推荐方法,其特征在于,通过人群分类预测精度选取最佳聚类数量及其对应的K-Modes模型和随机森林模型之后还包括:通过网格搜索对选取的随机森林模型进行调参。6.根据权利要求1所述的基于随机森林的产品推荐方法,其特征在于所述对第一类离散变量采用K-Modes对离散变量进行聚类的步骤包括:步骤一:随机确定k个聚类中心L1,L2…LK,Li是长度为M的向量,...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1