基于GBDT高阶特征组合的推荐方法、装置及存储介质制造方法及图纸

技术编号:26597338 阅读:22 留言:0更新日期:2020-12-04 21:19
本发明专利技术涉及大数据领域,揭露一种基于GBDT高阶特征组合的推荐方法,包括:构建建模宽表,并对建模宽表中的待处理数据进行预处理,以确定训练数据;其中,待处理数据包括用户因子数据和物品因子数据;基于训练数据对GBDT模型进行训练,以形成推荐模型;基于推荐模型获取待处理数据的可解释性的交叉特征;对交叉特征进行分析处理,获取对应的特征排序;基于特征排序进行预测推荐。本发明专利技术还涉及区块链技术,待处理数据存储于区块链中。本发明专利技术可以提高基于GBDT高阶特征组合的推荐效率及准确度。

【技术实现步骤摘要】
基于GBDT高阶特征组合的推荐方法、装置及存储介质
本专利技术涉及大数据领域,尤其涉及一种基于GBDT高阶特征组合的推荐的方法、装置、电子设备及计算机可读存储介质。
技术介绍
特征组合也叫特征交叉,是特征工程中的一种特征生成方式,除了一般对于连续型特征的加减乘除生成新的特征以外,还可以对多个特征(连续特征离散化)进行组合,这里的离散化的特征需要进行一定的分析,离散规划且合理,形成新的特征。在推荐领域,为了提高推荐预测的准确性,时常需要通过构造组合特征来表达更强的区分能力,常见的组合特征有单特征交叉、二阶特征交叉、高阶特征交叉等方式。在得到组合特征之后,即可通过组合特征的相关指标挖掘出学习目标重要的数据。目前,传统的特征组合方法主要包括穷举法、基于规则的组合法以及基于模型的二阶特征组合法等,其中的穷举法在特征数量较大时,容易导致高阶交叉后的特征组合数量呈指数增长,难以穷举。基于规则的组合法对规则的设计要求很高,需要对业务有深刻理解,存在耗费大量人力和时间,并且基于构造范式的特征组合依然存在面临指数爆炸,难以穷举的问题。而基于模型的二阶特征组合法仅适用于二阶交叉特征的挖掘,适用范围受限。
技术实现思路
本专利技术提供一种基于GBDT高阶特征组合的推荐方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于GBDT高阶特征组合的推荐效率及准确度。为实现上述目的,本专利技术提供的一种基于GBDT高阶特征组合的推荐方法,包括:构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;基于所述训练数据对GBDT模型进行训练,以形成推荐模型;基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;对所述交叉特征进行分析处理,获取对应的特征排序;基于所述特征排序进行预测推荐。可选地,所述用户因子数据包括:用于在APP上的操作行为、用户自身的基本信息以及用户历史信息;所述物品因子数据包括:物品的价格、类别以及销量。可选地,所述待处理数据存储于区块链中,对所述建模宽表中的待处理数据进行预处理的过程包括:使用Python对所述待处理数据做清洗和缺失值填充;对清洗完及缺失值填充后的数据做单变量分析,剔除异常或区别度、饱和度低于预设值的因子,以确定所述训练数据。可选地,基于所述训练数据对GBDT模型进行训练的过程包括:采用LightGBM的GBDT模型作为基础模型;设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率,已形成训练模型;获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号;对所述编号进行独热编码,以实现对所述GBDT模型的训练。可选地,所述基于所述推荐模型获取所述待处理数据的可解释性的交叉特征的过程包括:通过第一算法对所述推荐模型进行解析,获取每个叶子节点对应的高阶交叉特征;通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。可选地,所述第一算法包括:预训练所述推荐模型的GBDT模型;将原始特征向量输入所述GBDT模型中,对叶子节点进行独热编码,获取与每个原始特征向量相对应的一串GBDT编码;将编码后的GBDT向量作为所述GBDT模型的输入,训练获取所述高阶交叉特征。可选地,所述第二算法包括:步骤一:获取所述推荐模型的GBDT的一颗决策树,并将指针指向该决策树的节点;其中,所述指针为保存变量地址的变量;步骤二:判断所述节点是否为叶子节点;如果所述节点不是叶子节点,则将节点代表的特征压入栈,否则,则存储整堆栈当前的交叉特征数据,然后保存叶子对应的样本量、信息增益信息,并且压入一个空值;步骤三:将所述指针指向所述节点的左子树,并且重复执行所述步骤二,直至所有的左子树都被遍历,推出栈顶的数据;同时,将所述指针指向所述节点的右子树,并且重复执行所述步骤二,直至所有的右子树都被遍历,推出栈顶的数据;步骤四:返回步所述骤二中保存的所有数据,该所有数据即为该决策树的所有可解释性的交叉特征。为了解决上述问题,本专利技术还提供一种基于GBDT高阶特征组合的推荐装置,所述装置包括:建模宽表构建模块,用于构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;推荐模型推荐模块,用于基于所述训练数据对GBDT模型进行训练,以形成推荐模型;交叉特征获取模块,用于基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;特征排序获取模块,用于对所述交叉特征进行分析处理,获取对应的特征排序;推荐模块,用于基于所述特征排序进行预测推荐。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的基于GBDT高阶特征组合的推荐方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于GBDT高阶特征组合的推荐方法。本专利技术实施例通过构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,获取对应的训练数据,并根据训练数据对GBDT模型进行训练,以形成推荐模型,通过推荐模型获取待处理数据的可解释性的交叉特征及特征排序,可挖掘出有价值的特征和高阶特征组合,进而根据特征排序结果进行预测推荐,相比现有通过穷举、组合以及二阶特征的特征获取方式,能够实现推荐模型的可解释性,提升挖掘有价值的重要的特征组合的效率。附图说明图1为本专利技术一实施例提供的基于GBDT高阶特征组合的推荐方法的流程示意图;图2为本专利技术一实施例提供的第一算法的原理图;图3为本专利技术一实施例提供的第二算法的原理图;图4为本专利技术一实施例提供的基于GBDT高阶特征组合的推荐装置的模块示意图;图5为本专利技术一实施例提供的实现基于GBDT高阶特征组合的推荐方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于GBDT高阶特征组合的推荐方法。参照图1所示,为本专利技术一实施例提供的基于GBDT高阶特征组合的推荐方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,基于GBDT高阶特征组合的推荐方法包括:S110:构建建模宽表,并对建模宽表中的待处理数据进行预处理,以确定训练数据;其中,待处理数据包括用户因子数据和物品因子数据。需要强调的是,为进一步保证上述待处理数据的本文档来自技高网...

【技术保护点】
1.一种基于GBDT高阶特征组合的推荐方法,其特征在于,所述方法包括:/n构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;/n基于所述训练数据对GBDT模型进行训练,以形成推荐模型;/n基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;/n对所述交叉特征进行分析处理,获取对应的特征排序;/n基于所述特征排序进行预测推荐。/n

【技术特征摘要】
1.一种基于GBDT高阶特征组合的推荐方法,其特征在于,所述方法包括:
构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;
基于所述训练数据对GBDT模型进行训练,以形成推荐模型;
基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;
对所述交叉特征进行分析处理,获取对应的特征排序;
基于所述特征排序进行预测推荐。


2.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,
所述用户因子数据包括:用于在APP上的操作行为、用户自身的基本信息以及用户历史信息;
所述物品因子数据包括:物品的价格、类别以及销量。


3.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述待处理数据存储于区块链中,对所述建模宽表中的待处理数据进行预处理的过程包括:
使用Python对所述待处理数据做清洗和缺失值填充;
对清洗完及缺失值填充后的数据做单变量分析,剔除异常或区别度、饱和度低于预设值的因子,以确定所述训练数据。


4.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,基于所述训练数据对GBDT模型进行训练的过程包括:
采用LightGBM的GBDT模型作为基础模型;
设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率,已形成训练模型;
获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号;
对所述编号进行独热编码,以实现对所述GBDT模型的训练。


5.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述基于所述推荐模型获取所述待处理数据的可解释性的交叉特征的过程包括:
通过第一算法对所述推荐模型进行解析,获取每个叶子节点对应的高阶交叉特征;
通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。


6.如权利要求5所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述第一算法包括:
预训练所述推荐模型的GBDT模型;
将原始特征向量输入所述...

【专利技术属性】
技术研发人员:陈宏斌孙立博
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1