营销数据的处理方法及装置、营销模型的训练方法及装置制造方法及图纸

技术编号:28784714 阅读:20 留言:0更新日期:2021-06-09 11:19
本公开提供了一种营销数据的处理方法及装置、营销模型的训练方法及装置。该营销数据的处理方法包括:获取原始营销数据表,确定原始营销数据表中的不同营销数据表之间的数据配置关系,得到样本表;对样本表中的样本所对应的数据执行分布校验处理;基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征,将最终的特征拼接到样本表中得到最终样本表。通过本公开,解决了相关技术中特征提取的过程复杂且耗时的问题。技术中特征提取的过程复杂且耗时的问题。技术中特征提取的过程复杂且耗时的问题。

【技术实现步骤摘要】
营销数据的处理方法及装置、营销模型的训练方法及装置


[0001]本公开涉及数据挖掘领域,更具体地讲,涉及营销数据的处理方法及装置、营销模型的训练方法及装置。

技术介绍

[0002]随着数据挖掘技术的不断发展,各个行业也逐渐开始用“机器学习模型”代替“专家规则”,来对指数增长的数据进行分析。“营销系统”就是一个成功的应用场景,“营销系统”指的是:个体差异性会导致不同的客户对营销活动产生不同的响应结果,某些公司为了通过更低的成本达到更高的营销响应率,从而优先对营销系统中的高潜力客户发起营销。
[0003]目前,“营销系统”通常是基于机器学习模型实现的,基于机器学习模型实现是指:从大量的数据中提取特征,再通过对应的标签构建出正负样本,选用合适的机器学习模型对构建的正负样本进行建模,从而得到模型。该实现方法通过历史数据训练模型,让模型拟合出数据分布情况,在某种程度上实现了自动化的营销系统,减少了人力成本。但是,该实现方法也存在如下缺点:提取特征需要丰富的经验,一般通过人工选择出可能有用的特征,是一项十分耗时的工作;模型参数的搜索空间通常较大,一般是通过人工设定,但人工设定难以得到合适的参数,例如随机森林模型中树的棵数,神经网络模型中网络的层数等等。

技术实现思路

[0004]本公开的示例性实施例在于提供一种营销数据的处理方法及装置、营销模型的训练方法及装置,其能够解决相关技术中特征提取的过程复杂且耗时的问题。
[0005]根据本公开的第一方面,提供了一种营销数据的处理方法,处理方法包括:获取原始营销数据表,确定原始营销数据表中的不同营销数据表之间的数据配置关系,得到样本表;对样本表中的样本所对应的数据执行分布校验处理;基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征,将最终的特征拼接到样本表中得到最终样本表。
[0006]可选地,不同营销数据表包括营销记录表和营销结果表,确定原始营销数据表中的不同营销数据表之间的数据配置关系,得到样本表,包括:确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围,以得到样本表。
[0007]可选地,营销记录表中包括营销对象ID和对应的营销时间,营销结果表中包括营销反馈对象ID和对应的反馈时间;确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围,以得到样本表,包括:以营销记录表中的营销对象ID和对应的营销时间作为主键,以营销结果表中的营销反馈对象ID作为外键;对于营销记录表中的任一主键,在营销结果表中查找与主键中的营销对象ID匹配的营销反馈对象ID,得到初步筛选结果,然后以主键中的营销时间作为起始时间,在初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录;基于主键将筛选出的数据记录拼接至营销记录表中,得到样本表。
[0008]可选地,对于样本表中的每条样本所对应的数据中的连续数据,对样本表中的样本所对应的数据执行分布校验处理,包括:获取连续数据中每个字段的偏度;对偏度大于1的字段对应的数据执行ln运算,对偏度小于

1的字段对应的数据执行exp运算;基于ln运算或者exp运算的结果,调整连续数据的数据分布以趋近标准正态分布。
[0009]可选地,对于样本表中的每条样本所对应的数据中的离散数据,对样本表中的样本所对应的数据执行分布校验处理,包括:获取各离散数据在离散数据中的占比;按占比将离散数据从高到底进行排序;从排序后的离散数据中确定满足预设条件的目标离散数据;将目标离散数据之后的所有离散数据合并为一个离散值;其中,预设条件为:目标离散数据x
max(i,j)
的i,j∈[1,n]且满足以下公式(1),
[0010][0011]其中,离散数据为{x1,x2,

,xn},离散数据的占比为{p1,p2,

,pi,pj,

,pn}且p1≥p2≥

≥pi≥pj≥pn,n为大于等于1的正整数。
[0012]可选地,基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征,包括:基于每条样本的分布校验处理后的数据构造组合特征,并基于构造的组合特征来构造时序特征得到每条样本的一阶特征;对每条样本的一阶特征,从一阶特征开始循环执行分布校验处理、构造组合特征和时序特征,直至得到的特征的阶数满足预设阶数阈值,停止循环,将得到的特征确定为高阶特征;在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征,得到最终的特征。
[0013]可选地,基于每条样本的分布校验处理后的数据构造组合特征,包括以下构造方式中的至少一种:分别对每条样本的分布校验处理后的数据中的连续数据执行相加、相减、相乘和相除处理中的至少一种,得到组合特征;分别对每条样本的分布校验处理后的数据中的离散数据执行独热编码交叉,得到组合特征;分别将每条样本的独热编码交叉结果与对应的连续数据相乘,得到组合特征。
[0014]可选地,基于构造的组合特征来构造时序特征得到每条样本的一阶特征,包括:获取样本表涉及的营销结果表中的营销反馈对象ID;对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合,得到每条样本的一阶特征。
[0015]可选地,在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征,得到最终的特征,包括:获取每条样本的高阶特征的稳定度指标psi,将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集;获取第一高阶特征集中每个高阶特征的信息值vi,对获取的vi大于预设信息值阈值的高阶特征进行排序并合并为第二高阶特征集;将第二高阶特征集作为最终的特征。将第二高阶特征集作为最终的特征。
[0016]根据本公开的第二方面,提供了一种营销模型的训练方法,训练方法包括:获取采用如上述所述的营销数据的处理方法得到的最终样本表;基于最终样本表进行模型训练,得到营销模型。
[0017]可选地,基于最终样本表进行模型训练,得到营销模型,包括:以最终样本表、初始iv顺序阈值为输入,以受试者工作特征曲线下的面积auc为输出,采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练;从训练好的随
机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销模型。
[0018]可选地,采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练,包括:根据初始iv顺序阈值以及最终样本表中的最终的特征,从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本;将筛选出的样本分别输入到随机森林模型、梯度提升决策树模型和逻辑回归模型中,得到对应的auc;通过对应的auc调整初始iv顺序阈值、随机森林模型的参数、梯度提升决策树模型的参数和逻辑回归模型的参数,对随机森林模型、梯度提升决策树模型和逻辑回归模型进行训练。
[0019]根据本公开的第三方本文档来自技高网
...

【技术保护点】

【技术特征摘要】


≥p
i
≥p
j
≥p
n
,n为大于等于1的正整数。6.一种营销模型的训练方法,其特征在于,所述训练方法包括:获取采用如权利要求1

5中任一项所述的营销数据的处理方法得到的最终样本表;基于最终样本表进行模型训练,得到营销模型。7.一种营销数据的处理装置,其特征在于,所述处理装置包括:第一获取单元,用于获取原始营销数据表,确定所述原始营销数据表中的不同营销数据表之间的数据配置关系,得到样本表;分布校验单元,用于对所述样本表中的样本所对应的数据执行分布校验处理;第二获取单元,用于基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征,将最终的特...

【专利技术属性】
技术研发人员:张孝丹
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1