一种基于spark大数据的闭环目标客户识别方法技术

技术编号:19905131 阅读:31 留言:0更新日期:2018-12-26 03:26
本发明专利技术涉及Spark大数据处理技术领域,尤其是一种基于spark大数据的闭环目标客户识别方法,包括以下步骤:S1:数据采集;S2:数据预处理;S3:多重用户身份关联;S4:构建客户画像模型;S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV);S6:社区发现模型:该模型基于Spark GraphX的并行图计算采用FastUnfolding算法,通过不断优化Modularity值以挖掘客户所在的社区;S7:基于随机森林的产品推荐。本发明专利技术能够对客户进行细分,有利于企业定位和识别目标客户,以及利用有限的资源发展具有高价值的用户和潜在用户。

【技术实现步骤摘要】
一种基于spark大数据的闭环目标客户识别方法
本专利技术涉及Spark大数据处理
,尤其涉及一种基于spark大数据的闭环目标客户识别方法。
技术介绍
传统客户识别模式因无法对客户进行精准判断和及时更新优化产品而造成客户流失和无法激活潜在客户的问题,从海量的客户信息中无法准确识别提取出对商家有用信息。为此,我们提出了一种基于spark大数据的闭环目标客户识别方法。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于spark大数据的闭环目标客户识别方法。为了实现上述目的,本专利技术采用了如下技术方案:设计一种基于spark大数据的闭环目标客户识别方法,包括以下步骤:S1:数据采集:利用不同社交网络开放的API接口爬取公共用户信息,用户信息包括用户ID、昵称、性别以及评论,将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上;S2:数据预处理:使用SparkStreaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除,通过Kafka+flume进行数据的流转,经过spark的实时分析,将结果存入hbase,最后结合前端展现;S3:多重用户身份关联:利用预处理过的公共用户信息和客户信息,匹配出客户在不同社交网络所对应的账户,并将客户在社交网络具有的多重身份进行关联统一,具体步骤如下:A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户;B、使用昵称或者地址其他非决定属性构建客户信息向量V(a1,a2,···ai)和公共用户信息向量s(a1,a2,···ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度,若是相似度大于1,则将客户与该社交用户关联;S4:构建客户画像模型:根据目标产业产品业务知识图谱与进行社交网络用户关联后的客户信息定义用户标签;S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV),具体公式如下:CLV=CCV+CFVti-客户生命周期的某一时期;Ni-到目前为止客户关系延续的时期;a-折现率;E(i)-预计今后继续保持客户关系的时期;πp(ti)-在过去的ti期客户为企业贡献的利润;πf(ti)-未来的ti期客户为企业贡献的利润;其中πp(ti)根据历史数据求得,πf(ti)可通过历史数据结合以下历史利润拟合函数获得:式中,π(t)为客户第t个时间单元的客户利润,v是客户第一次购买带给公司的利润,g1,g2是利润曲线发生转形的两个时点,新客户可根据类似的老客户利润曲线参数给出,N是g1,时点后利润总增幅的极限,N=πmax+π1(g1),πmax为当前客户的最大利润;h1,h2采用最小二乘法获得;S6:社区发现模型:该模型基于SparkGraphX的并行图计算采用FastUnfolding算法,通过不断优化Modularity值以挖掘客户所在的社区;S7:基于随机森林的产品推荐:有些客户的购买特征不明显,直接导致其产品数据的类别分布的严重失衡,为用户的分类和推荐带来困难,为了解决产品推荐和潜在用户分析不平衡分类问题,这里结合客户标签和客户生命周期价值进行近邻欠采样获得多个分片数据,并通过SparkMLlib实现基于分片的随机森林算法。优选的,在S6中的具体模型实现如下:A:以用户为节点,相互关注或互为好友为边生产网络图;B:将用户划分为不同的社区;C:根据公式计算将每个节点Ki划分到它的邻居社区中得到的Modularity增益,如果最大增益大于0,则将它划分到对应的邻居社区,否则,保持归属于原社区,重复此步骤直到节点的社区不再发生变化;D:将上一阶段产生的不同社区为顶点,两个社区中所有节点对的边权重之和为边,重新构造新图,并复步骤C,直到获得最大的Modularity值。优选的,其中步骤B与步骤C为第一阶段,称为ModularityOptimization,主要是将每个节点划分到与其邻接的节点所在的社区中,以使得模块度的值不断变大;步骤D为第二阶段,称为CommunityAggregation,主要是将第一步划分出来的社区聚合成为一个点,即根据上一步生成的社区结构重新构造网络,重复以上的过程,直到网络中的结构不再改变为止。优选的,在S7中的随机森林算法的算法具体如下:(1)、载入数据,并将数据转换为RDD;(2)、将数据按7∶3划分为训练数据集验证数据集;(3)、使用sparksample方法进行bootstrap抽样,随机抽样RDD,将没有抽到的数据作为模型的测试数据集;(4)、使用欧式距离计算RDD样本距离,使用findNearestK方法,选取半径δ∈(0,∞)的K近邻候选集;(5)、再次使用sparksample()方法随机抽取K近邻样本作为训练数据集;(6)、使用数据训练模型,并使用测试数据评估模型;(7)、最后使用验证数据,由各个分片随机森林分类器投票决定最后的预测结果。优选的,在S1中的社交网络具体为acebook、微信、微博、淘宝、QQ或者是支付宝。优选的,在S4中的客户信息定义用户标签为基本属性标签、消费行为标签与消费兴趣标签,对于消费兴趣标签最终按照用户购买不同类商品金额占总消费金额比,记为该兴趣标签的权重。优选的,基本属性标签包括性别、年龄段以及地域,消费行为标签包括平均消费水平、消费时间以及支付方式,消费兴趣标签包括商品类型1以及商品类型2。本专利技术提出的一种基于spark大数据的闭环目标客户识别方法,有益效果在于:该基于spark大数据的闭环目标客户识别方法将客户多重身份的统一,有利于充分利用社交网络数据挖掘出客户所在的网络社交圈和有利于多渠道认识和分析客户。接着对客户数据进行分析和挖掘,分别建立客户画像模型、客户生命周期价值(CLV)模型、社区发现模型。其中客户画像模型利用Spark对客户的历史消费行为数据并结合客户的基础数据以及经过多重身份关联分析匹配到的社交网络用户信息,提取分析客户的行为习惯、偏好或者特定属性,为客户贴上个人标签,构建用户画像,客户画像模型的构建有利于分析用户的真实喜好,并根据用户的喜好进行产品的设计开发和推荐,其中客户生命周期价值(CLV)模型通过Spark计算客户生命周期价值(CLV)来评价客户对企业的价值,并以此细分客户,客户的细分有利于企业定位和识别目标客户,以及利用有限的资源发展具有高价值的用户和潜在用户,以实现利益的最大化和资源的合理配置,符合现在人性化发展的需求。附图说明图1为本专利技术提出的一种基于spark大数据的闭环目标客户识别方法的流程图。图2为本专利技术提出的一种基于spark大数据的闭环目标客户识别方法的FastUnfolding算法的流程图。图3为本专利技术提出的一种基于spark大数据的闭环目标客户识别方法的基于分片随机森林算法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。参照图1-3,一种基于spark大数据的闭环目标客户识别方法,包括以下步骤:S1:数据采集本文档来自技高网...

【技术保护点】
1.一种基于spark大数据的闭环目标客户识别方法,其特征在于,包括以下步骤:S1:数据采集:利用不同社交网络开放的API接口爬取公共用户信息,用户信息包括用户ID、昵称、性别以及评论,将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上;S2:数据预处理:使用Spark Streaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除,通过Kafka+flume进行数据的流转,经过spark的实时分析,将结果存入hbase,最后结合前端展现;S3:多重用户身份关联:利用预处理过的公共用户信息和客户信息,匹配出客户在不同社交网络所对应的账户,并将客户在社交网络具有的多重身份进行关联统一,具体步骤如下:A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户;B、使用昵称或者地址其他非决定属性构建客户信息向量v(a1,a2,…ai)和公共用户信息向量s(a1,a2,…ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度,若是相似度大于1,则将客户与该社交用户关联;S4:构建客户画像模型:根据目标产业产品业务知识图谱与进行社交网络用户关联后的客户信息定义用户标签;S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV),具体公式如下:CLV=CCV+CFV...

【技术特征摘要】
1.一种基于spark大数据的闭环目标客户识别方法,其特征在于,包括以下步骤:S1:数据采集:利用不同社交网络开放的API接口爬取公共用户信息,用户信息包括用户ID、昵称、性别以及评论,将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上;S2:数据预处理:使用SparkStreaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除,通过Kafka+flume进行数据的流转,经过spark的实时分析,将结果存入hbase,最后结合前端展现;S3:多重用户身份关联:利用预处理过的公共用户信息和客户信息,匹配出客户在不同社交网络所对应的账户,并将客户在社交网络具有的多重身份进行关联统一,具体步骤如下:A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户;B、使用昵称或者地址其他非决定属性构建客户信息向量v(a1,a2,…ai)和公共用户信息向量s(a1,a2,…ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度,若是相似度大于1,则将客户与该社交用户关联;S4:构建客户画像模型:根据目标产业产品业务知识图谱与进行社交网络用户关联后的客户信息定义用户标签;S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV),具体公式如下:CLV=CCV+CFVti—客户生命周期的某一时期;Ni—到目前为止客户关系延续的时期;a—折现率;E(i)—预计今后继续保持客户关系的时期;πp(ti)—在过去的ti期客户为企业贡献的利润;πf(ti)—未来的ti期客户为企业贡献的利润;其中πp(ti)根据历史数据求得,πf(ti)可通过历史数据结合以下历史利润拟合函数获得:式中,π(t)为客户第t个时间单元的客户利润,v是客户第一次购买带给公司的利润,g1,g2是利润曲线发生转形的两个时点,新客户可根据类似的老客户利润曲线参数给出,N是g1,时点后利润总增幅的极限,N=πmax+π1(g1),πmax为当前客户的最大利润;h1,h2采用最小二乘法获得;S6:社区发现模型:该模型基于SparkGraphX的并行图计算采用FastUnfolding算法,通过不断优化Modularity值以挖掘客户所在的社区;S7:基于随机森林的产品推荐:有些客户的购买特征不明显,直接导致其产品数据的类别分布的严重失衡,为用户的分类和推荐带来困难,为了解决产品推荐和潜在用户分析不平衡分类问题,这里结合客户标签和客户生命周期价值进行近邻欠采样获得多个分片数据,并通过Spa...

【专利技术属性】
技术研发人员:李振彰钟碧良吴继裕曹玉军张绍安林广松梁运鑫李嘉仪翁伟林郑鹏达
申请(专利权)人:广州航海学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1