一种基于spark大数据的闭环目标客户识别方法技术

技术编号：19905131 阅读：31 留言：0更新日期：2018-12-26 03:26

本发明专利技术涉及Spark大数据处理技术领域，尤其是一种基于spark大数据的闭环目标客户识别方法，包括以下步骤：S1：数据采集；S2：数据预处理；S3：多重用户身份关联；S4：构建客户画像模型；S5：构建客户生命周期价值(CLV)模型：根据已有的研究，本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV)；S6：社区发现模型：该模型基于Spark GraphX的并行图计算采用FastUnfolding算法，通过不断优化Modularity值以挖掘客户所在的社区；S7：基于随机森林的产品推荐。本发明专利技术能够对客户进行细分，有利于企业定位和识别目标客户，以及利用有限的资源发展具有高价值的用户和潜在用户。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于spark大数据的闭环目标客户识别方法
本专利技术涉及Spark大数据处理
，尤其涉及一种基于spark大数据的闭环目标客户识别方法。
技术介绍
传统客户识别模式因无法对客户进行精准判断和及时更新优化产品而造成客户流失和无法激活潜在客户的问题，从海量的客户信息中无法准确识别提取出对商家有用信息。为此，我们提出了一种基于spark大数据的闭环目标客户识别方法。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点，而提出的一种基于spark大数据的闭环目标客户识别方法。为了实现上述目的，本专利技术采用了如下技术方案：设计一种基于spark大数据的闭环目标客户识别方法，包括以下步骤：S1：数据采集：利用不同社交网络开放的API接口爬取公共用户信息，用户信息包括用户ID、昵称、性别以及评论，将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上；S2：数据预处理：使用SparkStreaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除，通过Kafka+flume进行数据的流转，经过spark的实时分析，将结果存入hbase，最后结合前端展现；S3：多重用户身份关联：利用预处理过的公共用户信息和客户信息，匹配出客户在不同社交网络所对应的账户，并将客户在社交网络具有的多重身份进行关联统一，具体步骤如下：A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户；B、使用昵称或者地址其他非决定属性构建客户信息向量V(a1，a2，···ai)和公共用户信...

【技术保护点】
1.一种基于spark大数据的闭环目标客户识别方法，其特征在于，包括以下步骤：S1：数据采集：利用不同社交网络开放的API接口爬取公共用户信息，用户信息包括用户ID、昵称、性别以及评论，将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上；S2：数据预处理：使用Spark Streaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除，通过Kafka+flume进行数据的流转，经过spark的实时分析，将结果存入hbase,最后结合前端展现；S3：多重用户身份关联：利用预处理过的公共用户信息和客户信息，匹配出客户在不同社交网络所对应的账户，并将客户在社交网络具有的多重身份进行关联统一，具体步骤如下：A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户；B、使用昵称或者地址其他非决定属性构建客户信息向量v(a1，a2，…ai)和公共用户信息向量s(a1，a2，…ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度，若是相似度大于1，则将客户与该社交用户关联；S4：构建客户...

【技术特征摘要】
1.一种基于spark大数据的闭环目标客户识别方法，其特征在于，包括以下步骤：S1：数据采集：利用不同社交网络开放的API接口爬取公共用户信息，用户信息包括用户ID、昵称、性别以及评论，将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上；S2：数据预处理：使用SparkStreaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除，通过Kafka+flume进行数据的流转，经过spark的实时分析，将结果存入hbase,最后结合前端展现；S3：多重用户身份关联：利用预处理过的公共用户信息和客户信息，匹配出客户在不同社交网络所对应的账户，并将客户在社交网络具有的多重身份进行关联统一，具体步骤如下：A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户；B、使用昵称或者地址其他非决定属性构建客户信息向量v(a1，a2，…ai)和公共用户信息向量s(a1，a2，…ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度，若是相似度大于1，则将客户与该社交用户关联；S4：构建客户画像模型：根据目标产业产品业务知识图谱与进行社交网络用户关联后的客户信息定义用户标签；S5：构建客户生命周期价值(CLV)模型：根据已有的研究，本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV)，具体公式如下：CLV＝CCV+CFVti—客户生命周期的某一时期；Ni—到目前为止客户关系延续的时期；a—折现率；E(i)—预计今后继续保持客户关系的时期；πp(ti)—在过去的ti期客户为企业贡献的利润；πf(ti)—未来的ti期客户为企业贡献的利润；其中πp(ti)根据历史数据求得，πf(ti)可通过历史数据结合以下历史利润拟合函数获得：式中,π(t)为客户第t个时间单元的客户利润，v是客户第一次购买带给公司的利润，g1，g2是利润曲线发生转形的两个时点，新客户可根据类似的老客户利润曲线参数给出，N是g1，时点后利润总增幅的极限,N＝πmax+π1(g1)，πmax为当前客户的最大利润；h1，h2采用最小二乘法获得；S6：社区发现模型：该模型基于SparkGraphX的并行图计算采用FastUnfolding算法，通过不断优化Modularity值以挖掘客户所在的社区；S7：基于随机森林的产品推荐：有些客户的购买特征不明显，直接导致其产品数据的类别分布的严重失衡，为用户的分类和推荐带来困难，为了解决产品推荐和潜在用户分析不平衡分类问题，这里结合客户标签和客户生命周期价值进行近邻欠采样获得多个分片数据，并通过Spa...

【专利技术属性】
技术研发人员：李振彰，钟碧良，吴继裕，曹玉军，张绍安，林广松，梁运鑫，李嘉仪，翁伟林，郑鹏达，
申请(专利权)人：广州航海学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人