一种基于多源异构数据的活跃客户筛选方法技术

技术编号:32473677 阅读:90 留言:0更新日期:2022-03-02 09:35
本发明专利技术涉及一种基于多源异构数据的活跃客户筛选方法,属于计算机技术领域,方法包括以下步骤:数据准备:根据实际需要处理多源异构数据中的缺失值与异常值;通过时序特征算法,构建时序新特征,并根据实际目标为每一条数据构建标签,对客户数据采用分层采样法构造训练集与测试集,通过SVM、逻辑回归、XGBoost和随机森林算法,以及遗传算法构建出超参数调整的集成学习框架,将所述集成学习框架在构造好的训练集上进行训练,采用训练好的集成学习框架对测试集进行预测并进行可视化展示。本发明专利技术能够在活动开展前对现有客群进行有效筛选,根据活动需要,动态调整客群大小,精准投放现有资源,提高私域流量运营效率,降低运营成本。降低运营成本。降低运营成本。

【技术实现步骤摘要】
一种基于多源异构数据的活跃客户筛选方法


[0001]本专利技术涉及计算机
,尤其涉及一种基于多源异构数据的活跃客户筛选方法。

技术介绍

[0002]私域流量是指从公域(internet)、它域(平台、媒体渠道、合作伙伴等)引流到自己私域(官网、客户名单),以及私域本身产生的流量(访客)。是指企业能自主运营,可以反复自由利用,无需付费,又能随时直接接触的流量资源,它属于流量的私有资产。随着流量红利的逐步发展,很多公司已经流量到顶,已经很难再获取新客户,公司要维持发展,还有另外一条路可走,那就是让老客户发挥更大的价值,也就是运营自己的私域流量。
[0003]私域流量运营中一个重要的部分即是活动的开展与客户的触达,如何将活动推送给真正有兴趣参加该次活动的客户,提高客户的参与度,充分利用有限资源提高效率,降低运营成本是其中的重要一环。目前,对于客户的筛选往往没有一个明确的指导原则,通常是一种“拍脑袋”的行为。例如,这次活动的奖品是电子产品,即选择18岁至35岁间的年轻群体进行推送。如果奖品是购物券,则选择更高年龄层的群体,这样的策略显然不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据的活跃客户筛选方法,其特征在于,包括如下步骤:步骤1:数据准备:采集包含时序数据与截面数据的多源异构数据,包括个人基本信息、行为数据信息及活动信息,根据实际需要处理多源异构数据中的缺失值与异常值;步骤2:通过时序特征算法,根据所述时序数据构建时序新特征,并根据实际目标为每一条数据构建标签,并在存储介质中建立对应保存每一条数据的存储空间;步骤3:对多源异构数据中和客户相关的数据采用分层采样法构造训练集与测试集,并分别在存储介质中分别建立集合数据结构的训练集存储空间和测试集存储空间;步骤4:通过SVM、逻辑回归、XGBoost和随机森林算法,以及遗传算法构建出超参数调整的集成学习框架,从所述训练集存储空间中读取出训练集数据,将所述集成学习框架在构造好的训练集上进行训练;步骤5:从所述测试集存储空间中读取出测试集数据,采用训练好的集成学习框架对测试集进行预测并进行可视化展示。2.根据权利要求1所述的一种基于多源异构数据的活跃客户筛选方法,其特征在于,步骤1具体包括以下步骤:步骤1.1:对于截面数据特征,先去除缺失值超过80%的特征,再采用箱线图的方法去除异常值;对于时序数据,使用多重平滑的方式填补缺失值,使用时序局部聚类的方法发现异常值:步骤1.2:对稀疏时间序列的行为数据以及活动数据进行压缩;步骤1.3:将个人基本信息的截面数据拼接到处理好的以月为单位的时序数据中。3.根据权利要求1所述的一种基于多源异构数据的活跃客户筛选方法,其特征在于,步骤2具体包括以下步骤:步骤2.1:对步骤1中得到的数据进行时序特征计算,采用独热向量编码形式对数据中的类别变量进行编码,将客户个人信息、行为数据信息与活动信息两两之间进行二阶交叉,三者之间进行三阶交叉,当特征大于设定的阈值个数时,采用顶部截断法,只保留顶部特征,然后根据活动信息,构建活动随时间变化特征,最后对所有特征进行归一化处理;步骤2.2:根据上一个时间...

【专利技术属性】
技术研发人员:林昱董潇常晋源何靖陈少磊
申请(专利权)人:西南财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1